bài báo khoa học

  • Mô tả :

Bộ dữ liệu bài báo khoa học chứa hai bộ tài liệu dài và có cấu trúc. Các bộ dữ liệu được lấy từ kho ArXiv và PubMed OpenAccess.

Cả "arxiv" và "pubmed" đều có hai tính năng:

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
trừu tượng Chữ chuỗi
mạo từ Chữ chuỗi
tên_phần Chữ chuỗi
@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (cấu hình mặc định)

  • Mô tả cấu hình : Tài liệu từ kho lưu trữ ArXiv.

  • Kích thước tập dữ liệu : 7.07 GiB

  • Chia tách :

Tách ra ví dụ
'test' 6.440
'train' 203,037
'validation' 6,436

khoa học_papers/pubmed

  • Mô tả cấu hình : Tài liệu từ kho lưu trữ PubMed.

  • Kích thước tập dữ liệu : 2.34 GiB

  • Chia tách :

Tách ra ví dụ
'test' 6,658
'train' 119,924
'validation' 6,633