reddit_disentanglement

  • opis :

Ten zbiór danych zawiera ~3 mln wiadomości z reddita. Każda wiadomość jest oznaczona metadanymi. Zadanie polega na przewidzeniu identyfikatora wiadomości nadrzędnej w odpowiednim wątku. Każdy rekord zawiera listę wiadomości z jednego wątku. Zduplikowane i uszkodzone rekordy są usuwane ze zbioru danych.

Funkcje to:

  • id - identyfikator wiadomości
  • tekst - tekst wiadomości
  • autor - autor wiadomości
  • created_utc - znacznik czasu UTC wiadomości
  • link_id - id posta, którego dotyczy komentarz

Cel:

Podział Przykłady
  • Struktura funkcji :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
wątek Sekwencja
wątek/autor Tekst strunowy
wątek/utworzony_utc Tekst strunowy
wątek/identyfikator Tekst strunowy
wątek/identyfikator_linku Tekst strunowy
wątek/identyfikator_rodzica Tekst strunowy
wątek/tekst Tekst strunowy
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}