reddit_disentanglement

  • opis :

Ten zbiór danych zawiera ~3 mln wiadomości z reddita. Każda wiadomość jest oznaczona metadanymi. Zadanie polega na przewidzeniu identyfikatora wiadomości nadrzędnej w odpowiednim wątku. Każdy rekord zawiera listę wiadomości z jednego wątku. Zduplikowane i uszkodzone rekordy są usuwane ze zbioru danych.

Funkcje to:

  • id - identyfikator wiadomości
  • tekst - tekst wiadomości
  • autor - autor wiadomości
  • created_utc - znacznik czasu UTC wiadomości
  • link_id - id posta, którego dotyczy komentarz

Cel:

Podział Przykłady
  • Struktura funkcji :
FeaturesDict({
   
'thread': Sequence({
       
'author': Text(shape=(), dtype=string),
       
'created_utc': Text(shape=(), dtype=string),
       
'id': Text(shape=(), dtype=string),
       
'link_id': Text(shape=(), dtype=string),
       
'parent_id': Text(shape=(), dtype=string),
       
'text': Text(shape=(), dtype=string),
   
}),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
wątek Sekwencja
wątek/autor Tekst strunowy
wątek/utworzony_utc Tekst strunowy
wątek/identyfikator Tekst strunowy
wątek/identyfikator_linku Tekst strunowy
wątek/identyfikator_rodzica Tekst strunowy
wątek/tekst Tekst strunowy
@article{zhu2019did,
  title
={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author
={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal
={arXiv preprint arXiv:1911.10666},
  year
={2019}
}