reddit_disentanglement

  • Descrizione :

Questo set di dati contiene circa 3 milioni di messaggi da reddit. Ogni messaggio è etichettato con metadati. L'attività è prevedere l'id del suo messaggio principale nel thread corrispondente. Ogni record contiene un elenco di messaggi da un thread. I record duplicati e interrotti vengono rimossi dal set di dati.

Le caratteristiche sono:

  • id - id messaggio
  • testo - testo del messaggio
  • autore - autore del messaggio
  • created_utc - timestamp UTC del messaggio
  • link_id - ID del post a cui si riferisce il commento

Obbiettivo:

Diviso Esempi
  • Struttura delle caratteristiche :
FeaturesDict({
   
'thread': Sequence({
       
'author': Text(shape=(), dtype=string),
       
'created_utc': Text(shape=(), dtype=string),
       
'id': Text(shape=(), dtype=string),
       
'link_id': Text(shape=(), dtype=string),
       
'parent_id': Text(shape=(), dtype=string),
       
'text': Text(shape=(), dtype=string),
   
}),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
filo Sequenza
filo/autore Testo corda
discussione/creato_utc Testo corda
filo/id Testo corda
thread/link_id Testo corda
thread/id_genitore Testo corda
filo/testo Testo corda
@article{zhu2019did,
  title
={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author
={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal
={arXiv preprint arXiv:1911.10666},
  year
={2019}
}