- Deskripsi :
Dataset Peringkasan Ekstrim (XSum).
Ada dua fitur: - dokumen: Input artikel berita. - ringkasan: Ringkasan satu kalimat dari artikel.
Data ini perlu diunduh dan diekstraksi secara manual seperti yang dijelaskan dalam https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md Folder 'xsum-extracts-from-downloads' perlu dikompresi sebagai 'xsum-extracts-from-downloads.tar.gz' dan taruh di folder yang diunduh secara manual.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
Kode sumber :
tfds.summarization.Xsum
Versi :
-
1.0.0
: Dataset tanpa pembersihan. -
1.1.0
(default): Menghapus konten web.
-
Ukuran unduhan :
2.59 MiB
Ukuran dataset :
512.03 MiB
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Petunjuk pengunduhan mendetail (yang mengharuskan menjalankan skrip khusus) ada di sini: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts Setelahnya , harap masukkan file xsum-extracts-from-downloads.tar.gz di manual_dir.Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 11.301 |
'train' | 203.577 |
'validation' | 11.305 |
- Struktur fitur :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
dokumen | Teks | rangkaian | ||
ringkasan | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('document', 'summary')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}