reddit_tifu

  • Descripción :

Conjunto de datos de Reddit, donde TIFU denota el nombre de subbreddit /r/tifu. Como se define en la publicación, el estilo "corto" usa el título como resumen y "largo" usa tldr como resumen.

Las características incluyen:

  • documento: publicar texto sin tldr.
  • tldr: línea tldr.
  • título: título recortado sin tldr.
  • ups: votos a favor.
  • puntuación: puntuación.
  • num_comments: número de comentarios.
  • upvote_ratio: proporción de votos a favor.

  • Documentación adicional : Explore en Papers With Code

  • Página de inicio: https://github.com/ctr4si/MMN

  • Código fuente : tfds.datasets.reddit_tifu.Builder

  • Versiones :

    • 1.1.0 : Quitar documentos vacíos y cadenas de resumen.
    • 1.1.1 : agregue divisiones de entrenamiento, desarrollo y prueba (80/10/10) que se usan en PEGASUS ( https://arxiv.org/abs/1912.08777 ) en una configuración separada. Estos se crearon aleatoriamente usando la función de división tfds y se están publicando para garantizar que los resultados en Reddit Tifu Long sean reproducibles y comparables. También agregue id a los puntos de datos.
    • 1.1.2 (predeterminado): Splits corregidos subidos.
  • Estructura de características :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
documentos Texto cadena
identificación Texto cadena
num_comentarios Tensor flotar32
puntaje Tensor flotar32
título Texto cadena
tldr Texto cadena
UPS Tensor flotar32
proporción de votos a favor Tensor flotar32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (configuración predeterminada)

  • Descripción de la configuración : uso del título como resumen.

  • Tamaño de la descarga : 639.54 MiB

  • Tamaño del conjunto de datos : 141.46 MiB

  • Auto-caché ( documentación ): Solo cuando shuffle_files=False (tren)

  • Divisiones :

Separar Ejemplos
'train' 79,740

reddit_tifu/largo

  • Descripción de la configuración : uso de TLDR como resumen.

  • Tamaño de la descarga : 639.54 MiB

  • Tamaño del conjunto de datos : 93.10 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'train' 42,139

reddit_tifu/long_split

  • Descripción de la configuración : uso de TLDR como resumen y retorno de tren/prueba/divisiones de desarrollo.

  • Tamaño de la descarga : 639.94 MiB

  • Tamaño del conjunto de datos : 93.10 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 4,214
'train' 33,711
'validation' 4,214