bài báo khoa học

Mô tả :

Bộ dữ liệu bài báo khoa học chứa hai bộ tài liệu dài và có cấu trúc. Các bộ dữ liệu được lấy từ kho ArXiv và PubMed OpenAccess.

Cả "arxiv" và "pubmed" đều có hai tính năng:

bài viết: phần nội dung của tài liệu, các đoạn được phân tách bằng "/n".
trừu tượng: phần tóm tắt của tài liệu, các đoạn được phân tách bằng "/n".
section_names: tiêu đề của các phần, được phân tách bằng "/n".
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/armancohan/long-summarization
Mã nguồn : tfds.datasets.scientific_papers.Builder
Phiên bản :
- 1.1.0 : Không có ghi chú phát hành.
- 1.1.1 (mặc định): Không có ghi chú phát hành.
Kích thước tải xuống : 4.20 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Cấu trúc tính năng :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
trừu tượng	Chữ	chuỗi
mạo từ	Chữ	chuỗi
tên_phần	Chữ	chuỗi

Các khóa được giám sát (Xem as_supervised doc ): ('article', 'abstract')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (cấu hình mặc định)

Mô tả cấu hình : Tài liệu từ kho lưu trữ ArXiv.
Kích thước tập dữ liệu : 7.07 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	6.440
`'train'`	203,037
`'validation'`	6,436

Ví dụ ( tfds.as_dataframe ):

khoa học_papers/pubmed

Mô tả cấu hình : Tài liệu từ kho lưu trữ PubMed.
Kích thước tập dữ liệu : 2.34 GiB
Chia tách :

Tách ra	ví dụ
`'test'`	6,658
`'train'`	119,924
`'validation'`	6,633

Ví dụ ( tfds.as_dataframe ):

bài báo khoa học Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Scientific_papers/arxiv (cấu hình mặc định)

khoa học_papers/pubmed

bài báo khoa học