- Deskripsi :
Dataset karya ilmiah berisi dua kumpulan dokumen yang panjang dan terstruktur. Kumpulan data diperoleh dari repositori OpenAccess ArXiv dan PubMed.
Baik "arxiv" dan "pubmed" memiliki dua fitur:
- artikel: badan dokumen, halaman dipisahkan dengan "/n".
- abstrak: abstrak dokumen, pagragraf dipisahkan dengan "/n".
nama_bagian: judul bagian, dipisahkan dengan "/n".
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.datasets.scientific_papers.Builder
Versi :
-
1.1.0
: Tidak ada catatan rilis. -
1.1.1
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
4.20 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :
FeaturesDict({
'abstract': Text(shape=(), dtype=string),
'article': Text(shape=(), dtype=string),
'section_names': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
abstrak | Teks | rangkaian | ||
artikel | Teks | rangkaian | ||
nama_bagian | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('article', 'abstract')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
scientific_papers/arxiv (konfigurasi default)
Deskripsi konfigurasi : Dokumen dari repositori ArXiv.
Ukuran dataset :
7.07 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.440 |
'train' | 203.037 |
'validation' | 6.436 |
- Contoh ( tfds.as_dataframe ):
karya_ilmiah/dipublikasikan
Deskripsi konfigurasi : Dokumen dari repositori PubMed.
Ukuran dataset :
2.34 GiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 6.658 |
'train' | 119.924 |
'validation' | 6.633 |
- Contoh ( tfds.as_dataframe ):