reddit_disentanglement

  • Deskripsi :

Kumpulan data ini berisi ~3 juta pesan dari reddit. Setiap pesan diberi label dengan metadata. Tugasnya adalah memprediksi id pesan induknya di utas yang sesuai. Setiap rekaman berisi daftar pesan dari satu utas. Catatan duplikat dan rusak akan dihapus dari dataset.

Fitur-fiturnya adalah:

  • id - id pesan
  • teks - teks pesan
  • penulis - penulis pesan
  • dibuat_utc - stempel waktu pesan UTC
  • link_id - id postingan yang terkait dengan komentar

Target:

Membelah Contoh
  • Struktur fitur :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
benang Urutan
topik/penulis Teks rangkaian
utas/dibuat_utc Teks rangkaian
utas/id Teks rangkaian
utas/link_id Teks rangkaian
utas/id_orangtua Teks rangkaian
utas/teks Teks rangkaian
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}