- Deskripsi :
BookSum: Kumpulan Kumpulan Data untuk Peringkasan Narasi Bentuk Panjang
Implementasi ini saat ini hanya mendukung ringkasan buku dan bab.
GitHub: https://github.com/salesforce/booksum
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/salesforce/booksum
Kode sumber :
tfds.datasets.booksum.Builder
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
Unknown size
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):1) Buka https://github.com/salesforce/booksum, dan jalankan langkah 1-3. Tempatkan seluruh proyek
booksum
git di folder manual. 2) Unduh buku bab dari https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip dan unzip ke folder manual.
Folder manual harus berisi direktori berikut:
- `booksum/`
- `all_chapterized_books/`
Auto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika
shuffle_files=False
(train)Struktur fitur :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
dokumen | Teks | rangkaian | ||
ringkasan | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('document', 'summary')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/buku (konfigurasi default)
Deskripsi konfigurasi : Peringkasan tingkat buku
Ukuran dataset :
208.81 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Contoh ( tfds.as_dataframe ):
buku/bab
Deskripsi konfigurasi : ringkasan tingkat bab
Ukuran dataset :
216.71 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 1.083 |
'train' | 6.524 |
'validation' | 891 |
- Contoh ( tfds.as_dataframe ):