- Deskripsi :
SAMSum Corpus berisi lebih dari 16 ribu dialog obrolan dengan ringkasan yang dianotasi secara manual.
Ada dua fitur:
- dialog: teks dialog.
- ringkasan: ringkasan tertulis manusia dari dialog.
id: id dari sebuah contoh.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://arxiv.org/src/1911.12237v2/anc
Kode sumber :
tfds.datasets.samsum.Builder
Versi :
-
1.0.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
Unknown size
Ukuran dataset :
10.71 MiB
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Unduh https://arxiv.org/src/1911.12237v2/anc/corpus.7z, dekompresi dan tempatkan train.json, val.json dan test.json di folder manual.Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 819 |
'train' | 14.732 |
'validation' | 818 |
- Struktur fitur :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
dialog | Teks | rangkaian | ||
Indo | Teks | rangkaian | ||
ringkasan | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('dialogue', 'summary')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}