- Mô tả :
Bộ dữ liệu bài báo khoa học chứa hai bộ tài liệu dài và có cấu trúc. Các bộ dữ liệu được lấy từ kho ArXiv và PubMed OpenAccess.
Cả "arxiv" và "pubmed" đều có hai tính năng:
- bài viết: phần nội dung của tài liệu, các đoạn được phân tách bằng "/n".
- trừu tượng: phần tóm tắt của tài liệu, các đoạn được phân tách bằng "/n".
section_names: tiêu đề của các phần, được phân tách bằng "/n".
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/armancohan/long-summarization
Mã nguồn :
tfds.datasets.scientific_papers.Builder
Phiên bản :
-
1.1.0
: Không có ghi chú phát hành. -
1.1.1
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
4.20 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Tính năngDict | ||||
trừu tượng | Chữ | chuỗi | ||
mạo từ | Chữ | chuỗi | ||
tên_phần | Chữ | chuỗi |
Các khóa được giám sát (Xem
as_supervised
doc ):('article', 'abstract')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
Scientific_papers/arxiv (cấu hình mặc định)
Mô tả cấu hình : Tài liệu từ kho lưu trữ ArXiv.
Kích thước tập dữ liệu :
7.07 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 6.440 |
'train' | 203,037 |
'validation' | 6,436 |
- Ví dụ ( tfds.as_dataframe ):
khoa học_papers/pubmed
Mô tả cấu hình : Tài liệu từ kho lưu trữ PubMed.
Kích thước tập dữ liệu :
2.34 GiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 6,658 |
'train' | 119,924 |
'validation' | 6,633 |
- Ví dụ ( tfds.as_dataframe ):