media_sum

  • Descripción :

Este conjunto de datos de entrevistas de medios a gran escala contiene 463.6K transcripciones con resúmenes abstractos, recopilados de transcripciones de entrevistas y descripciones generales/temáticas de NPR y CNN.

Restrinja el uso de este conjunto de datos únicamente con fines de investigación.

Y cite nuestro artículo: MediaSum: un conjunto de datos de entrevistas de medios a gran escala para resumir diálogos

Ética

Hemos utilizado solo los datos de transcripciones disponibles públicamente de las fuentes de los medios y nos adherimos a su directriz solo para fines de investigación.

Dado que los medios de comunicación y los invitados pueden tener puntos de vista sesgados, es probable que las transcripciones y los resúmenes los contengan. El contenido de las transcripciones y resúmenes solo refleja las opiniones de los medios e invitados, y debe verse con discreción.

  • Página de inicio: https://github.com/zcgzcgzcg1/MediaSum

  • Código fuente : tfds.datasets.media_sum.Builder

  • Versiones :

    • 1.0.0 (predeterminado): versión inicial.
  • Tamaño de descarga : Unknown size

  • Tamaño del conjunto de datos : 4.11 GiB

  • Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir debe contener los archivos:

    • noticias_diálogo.json
    • tren_val_prueba_split.json

Los archivos se pueden descargar y extraer de la página de GitHub del conjunto de datos: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Dividir Ejemplos
'test' 10,000
'train' 443,596
'val' 10,000
  • Estructura de características :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • Documentación de características :
Característica Clase Forma Tipo D Descripción
CaracterísticasDict
fecha Texto cadena
identificación Texto cadena
programa Texto cadena
vocero Secuencia (Texto) (Ninguno,) cadena
resumen Texto cadena
URL Texto cadena
utt Secuencia (Texto) (Ninguno,) cadena
  • Cita :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}