- Deskripsi :
Kumpulan data ini berisi ~3 juta pesan dari reddit. Setiap pesan diberi label dengan metadata. Tugasnya adalah memprediksi id pesan induknya di utas yang sesuai. Setiap rekaman berisi daftar pesan dari satu utas. Catatan duplikat dan rusak akan dihapus dari dataset.
Fitur-fiturnya adalah:
- id - id pesan
- teks - teks pesan
- penulis - penulis pesan
- dibuat_utc - stempel waktu pesan UTC
- link_id - id postingan yang terkait dengan komentar
Target:
parent_id - id dari pesan induk di utas saat ini
Beranda : https://github.com/henghuiz/MaskedHierarchicalTransformer
Kode sumber :
tfds.datasets.reddit_disentanglement.Builder
Versi :
-
2.0.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
Unknown size
Ukuran set data :
Unknown size
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke
download_config.manual_dir
(default ke~/tensorflow_datasets/downloads/manual/
):
Unduh https://github.com/henghuiz/MaskedHierarchicalTransformer, dekompresi raw_data.zip dan jalankan generate_dataset.py dengan kredensial api reddit Anda. Kemudian masukkan train.csv, val.csv dan test.csv dari direktori keluaran ke folder manual.Di-cache otomatis ( dokumentasi ): Tidak diketahui
Perpecahan :
Membelah | Contoh |
---|
- Struktur fitur :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=string),
'created_utc': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'link_id': Text(shape=(), dtype=string),
'parent_id': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
}),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
benang | Urutan | |||
topik/penulis | Teks | rangkaian | ||
utas/dibuat_utc | Teks | rangkaian | ||
utas/id | Teks | rangkaian | ||
utas/link_id | Teks | rangkaian | ||
utas/id_orangtua | Teks | rangkaian | ||
utas/teks | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ): Tidak ada.
Kutipan :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}