- Deskripsi :
WikiDialog adalah kumpulan data besar dari percakapan pencarian informasi yang dihasilkan secara sintetis. Setiap percakapan dalam kumpulan data berisi dua pembicara yang didasarkan pada bagian dari Wikipedia bahasa Inggris: ucapan satu pembicara terdiri dari kalimat yang tepat dari bagian tersebut; pembicara lain dihasilkan oleh model bahasa yang besar.
Deskripsi konfigurasi : WikiDialog dihasilkan dari dialog inpainter yang disetel pada OR-QuAC dan QReCC.
OQ
adalah singkatan dari OR-QuAC dan QReCC.Beranda : https://github.com/google-research/dialog-inpainting#wikidialog-oq
Kode sumber :
tfds.text.wiki_dialog.WikiDialog
Versi :
-
1.0.0
(default): Rilis awal.
-
Ukuran unduhan :
7.04 GiB
Ukuran dataset :
36.58 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 11.264.129 |
'validation' | 113.822 |
- Struktur fitur :
FeaturesDict({
'author_num': Sequence(int32),
'passage': Text(shape=(), dtype=string),
'pid': Text(shape=(), dtype=string),
'sentences': Sequence(Text(shape=(), dtype=string)),
'title': Text(shape=(), dtype=string),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
author_num | Urutan (Tensor) | (Tidak ada,) | int32 | |
jalan | Teks | rangkaian | ||
pid | Teks | rangkaian | ||
kalimat | Urutan (Teks) | (Tidak ada,) | rangkaian | |
judul | Teks | rangkaian | ||
ucapan | Urutan (Teks) | (Tidak ada,) | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@inproceedings{dai2022dialoginpainting,
title={Dialog Inpainting: Turning Documents to Dialogs},
author={Dai, Zhuyun and Chaganty, Arun Tejasvi and Zhao, Vincent and Amini, Aida and Green, Mike and Rashid, Qazi and Guu, Kelvin},
booktitle={International Conference on Machine Learning (ICML)},
year={2022},
organization={PMLR}
}