reddit_disentanglement

  • Descrição :

Este conjunto de dados contém cerca de 3 milhões de mensagens do reddit. Cada mensagem é rotulada com metadados. A tarefa é prever o id de sua mensagem pai no thread correspondente. Cada registro contém uma lista de mensagens de um thread. Registros duplicados e corrompidos são removidos do conjunto de dados.

As características são:

  • id - id da mensagem
  • texto - texto da mensagem
  • autor - autor da mensagem
  • created_utc - carimbo de data/hora UTC da mensagem
  • link_id - id do post ao qual o comentário se refere

Alvo:

Dividir Exemplos
  • Estrutura de recursos :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • Documentação do recurso:
Funcionalidade Aula Forma Tipo D Descrição
RecursosDict
fio Seqüência
tópico/autor Texto fragmento
thread/criado_utc Texto fragmento
tópico/id Texto fragmento
tópico/link_id Texto fragmento
thread/parent_id Texto fragmento
tópico/texto Texto fragmento
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}