- Mô tả :
Đây là bộ dữ liệu để phân loại ý định trích dẫn trong các bài báo học thuật. Nhãn mục đích trích dẫn chính cho từng đối tượng Json được chỉ định bằng khóa nhãn trong khi ngữ cảnh trích dẫn được chỉ định bằng khóa ngữ cảnh. Ví dụ:
{
'string': 'In chacma baboons, male-infant relationships can be linked to both
formation of friendships and paternity success [30,31].'
'sectionName': 'Introduction',
'label': 'background',
'citingPaperId': '7a6b2d4b405439',
'citedPaperId': '9d1abadc55b5e0',
...
}
Bạn có thể lấy thông tin đầy đủ về bài báo bằng cách sử dụng id bài báo được cung cấp với API Semantic Scholar ( https://api.semanticscholar.org/ ).
Các nhãn là: Phương pháp, Bối cảnh, Kết quả
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/allenai/scicite
Mã nguồn :
tfds.datasets.scicite.Builder
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
22.12 MiB
Kích thước tập dữ liệu :
7.26 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.859 |
'train' | 8,194 |
'validation' | 916 |
- Cấu trúc tính năng :
FeaturesDict({
'citeEnd': int64,
'citeStart': int64,
'citedPaperId': Text(shape=(), dtype=string),
'citingPaperId': Text(shape=(), dtype=string),
'excerpt_index': int32,
'id': Text(shape=(), dtype=string),
'isKeyCitation': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'label2': ClassLabel(shape=(), dtype=int64, num_classes=4),
'label2_confidence': float32,
'label_confidence': float32,
'sectionName': Text(shape=(), dtype=string),
'source': ClassLabel(shape=(), dtype=int64, num_classes=7),
'string': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
trích dẫnEnd | tenxơ | int64 | ||
trích dẫnBắt đầu | tenxơ | int64 | ||
trích dẫnPaperId | Chữ | chuỗi | ||
trích dẫnPaperId | Chữ | chuỗi | ||
đoạn trích_index | tenxơ | int32 | ||
Tôi | Chữ | chuỗi | ||
isKeyCitation | tenxơ | bool | ||
nhãn mác | LớpNhãn | int64 | ||
nhãn2 | LớpNhãn | int64 | ||
nhãn2_sự tự tin | tenxơ | phao32 | ||
nhãn_sự tự tin | tenxơ | phao32 | ||
phầnTên | Chữ | chuỗi | ||
nguồn | LớpNhãn | int64 | ||
chuỗi | Chữ | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):('string', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- trích dẫn :
@InProceedings{Cohan2019Structural,
author={Arman Cohan and Waleed Ammar and Madeleine Van Zuylen and Field Cady},
title={Structural Scaffolds for Citation Intent Classification in Scientific Publications},
booktitle="NAACL",
year="2019"
}