reddit_disentanglement

  • Descrizione :

Questo set di dati contiene circa 3 milioni di messaggi da reddit. Ogni messaggio è etichettato con metadati. L'attività è prevedere l'id del suo messaggio principale nel thread corrispondente. Ogni record contiene un elenco di messaggi da un thread. I record duplicati e interrotti vengono rimossi dal set di dati.

Le caratteristiche sono:

  • id - id messaggio
  • testo - testo del messaggio
  • autore - autore del messaggio
  • created_utc - timestamp UTC del messaggio
  • link_id - ID del post a cui si riferisce il commento

Obbiettivo:

Diviso Esempi
  • Struttura delle caratteristiche :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
filo Sequenza
filo/autore Testo corda
discussione/creato_utc Testo corda
filo/id Testo corda
thread/link_id Testo corda
thread/id_genitore Testo corda
filo/testo Testo corda
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}