- Deskripsi :
BookSum: Kumpulan Kumpulan Data untuk Peringkasan Narasi Bentuk Panjang
Implementasi ini saat ini hanya mendukung ringkasan buku dan bab.
GitHub: https://github.com/salesforce/booksum
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/salesforce/booksum
Kode sumber :
tfds.datasets.booksum.BuilderVersi :
-
1.0.0(default): Rilis awal.
-
Ukuran unduhan :
Unknown sizeInstruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir(default ke~/tensorflow_datasets/downloads/manual/):1) Buka https://github.com/salesforce/booksum, dan jalankan langkah 1-3. Tempatkan seluruh proyek
booksumgit di folder manual. 2) Unduh buku bab dari https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip dan unzip ke folder manual.
Folder manual harus berisi direktori berikut:
- `booksum/`
- `all_chapterized_books/`
Auto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika
shuffle_files=False(train)Struktur fitur :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
| Fitur | Kelas | Membentuk | Dtype | Keterangan |
|---|---|---|---|---|
| fiturDict | ||||
| dokumen | Teks | rangkaian | ||
| ringkasan | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_superviseddoc ):('document', 'summary')Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/buku (konfigurasi default)
Deskripsi konfigurasi : Peringkasan tingkat buku
Ukuran dataset :
208.81 MiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Contoh ( tfds.as_dataframe ):
buku/bab
Deskripsi konfigurasi : ringkasan tingkat bab
Ukuran dataset :
216.71 MiBPerpecahan :
| Membelah | Contoh |
|---|---|
'test' | 1.083 |
'train' | 6.524 |
'validation' | 891 |
- Contoh ( tfds.as_dataframe ):