reddit_disentanglement

Deskripsi :

Kumpulan data ini berisi ~3 juta pesan dari reddit. Setiap pesan diberi label dengan metadata. Tugasnya adalah memprediksi id pesan induknya di utas yang sesuai. Setiap rekaman berisi daftar pesan dari satu utas. Catatan duplikat dan rusak akan dihapus dari dataset.

Fitur-fiturnya adalah:

id - id pesan
teks - teks pesan
penulis - penulis pesan
dibuat_utc - stempel waktu pesan UTC
link_id - id postingan yang terkait dengan komentar

Target:

parent_id - id dari pesan induk di utas saat ini
Beranda : https://github.com/henghuiz/MaskedHierarchicalTransformer
Kode sumber : tfds.datasets.reddit_disentanglement.Builder
Versi :
- 2.0.0 (default): Tidak ada catatan rilis.
Ukuran unduhan : Unknown size
Ukuran set data : Unknown size
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
Unduh https://github.com/henghuiz/MaskedHierarchicalTransformer, dekompresi raw_data.zip dan jalankan generate_dataset.py dengan kredensial api reddit Anda. Kemudian masukkan train.csv, val.csv dan test.csv dari direktori keluaran ke folder manual.
Di-cache otomatis ( dokumentasi ): Tidak diketahui
Perpecahan :

Membelah	Contoh

Struktur fitur :

FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
benang	Urutan
topik/penulis	Teks	rangkaian
utas/dibuat_utc	Teks	rangkaian
utas/id	Teks	rangkaian
utas/link_id	Teks	rangkaian
utas/id_orangtua	Teks	rangkaian
utas/teks	Teks	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ): Tidak ada.
Kutipan :

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}

reddit_disentanglement Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

reddit_disentanglement