bài báo khoa học

  • Mô tả :

Bộ dữ liệu bài báo khoa học chứa hai bộ tài liệu dài và có cấu trúc. Các tập dữ liệu được lấy từ các kho ArXiv và PubMed OpenAccess.

Cả "arxiv" và "pubmed" đều có hai tính năng:

  • article: phần nội dung của tài liệu, các trang phân tách bằng "/ n".
  • abstract: phần tóm tắt của tài liệu, các trang phân tách bằng "/ n".
  • section_names: tiêu đề của các phần, được phân tách bằng "/ n".

  • Trang chủ : https://github.com/armancohan/long-summarization

  • Mã nguồn : tfds.summarization.ScientificPapers

  • Các phiên bản :

    • 1.1.0 : Không có ghi chú phát hành.
    • 1.1.1 (mặc định): Không có ghi chú phát hành.
  • Kích thước tải xuống : 4.20 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Cấu trúc tính năng :

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'article': Text(shape=(), dtype=tf.string),
    'section_names': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
trừu tượng Chữ tf.string
bài báo Chữ tf.string
section_names Chữ tf.string
@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers / arxiv (cấu hình mặc định)

  • Mô tả cấu hình : Tài liệu từ kho ArXiv.

  • Kích thước tập dữ liệu : 7.07 GiB

  • Tách :

Tách ra Các ví dụ
'test' 6.440
'train' 203.037
'validation' 6.436

Scientific_papers / pubmed

  • Mô tả cấu hình : Tài liệu từ kho PubMed.

  • Kích thước tập dữ liệu : 2.34 GiB

  • Tách :

Tách ra Các ví dụ
'test' 6.658
'train' 119.924
'validation' 6.633