reddit_disentanglement

  • Descripción :

Este conjunto de datos contiene ~3 millones de mensajes de reddit. Cada mensaje está etiquetado con metadatos. La tarea es predecir la identificación de su mensaje principal en el hilo correspondiente. Cada registro contiene una lista de mensajes de un hilo. Los registros duplicados y rotos se eliminan del conjunto de datos.

Las características son:

  • identificación - identificación del mensaje
  • texto - mensaje de texto
  • autor - autor del mensaje
  • created_utc - marca de tiempo UTC del mensaje
  • link_id - id de la publicación con la que se relaciona el comentario

Objetivo:

Separar Ejemplos
  • Estructura de características :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
hilo Secuencia
hilo/autor Texto cadena
subproceso/creado_utc Texto cadena
subproceso/identificación Texto cadena
hilo/link_id Texto cadena
subproceso/parent_id Texto cadena
hilo/texto Texto cadena
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}