media_sum

Descripción :

Este conjunto de datos de entrevistas de medios a gran escala contiene 463.6K transcripciones con resúmenes abstractos, recopilados de transcripciones de entrevistas y descripciones generales/temáticas de NPR y CNN.

Restrinja el uso de este conjunto de datos únicamente con fines de investigación.

Y cite nuestro artículo: MediaSum: un conjunto de datos de entrevistas de medios a gran escala para resumir diálogos

Ética

Hemos utilizado solo los datos de transcripciones disponibles públicamente de las fuentes de los medios y nos adherimos a su directriz solo para fines de investigación.

Dado que los medios de comunicación y los invitados pueden tener puntos de vista sesgados, es probable que las transcripciones y los resúmenes los contengan. El contenido de las transcripciones y resúmenes solo refleja las opiniones de los medios e invitados, y debe verse con discreción.

Página de inicio: https://github.com/zcgzcgzcg1/MediaSum
Código fuente : tfds.datasets.media_sum.Builder
Versiones :
- 1.0.0 (predeterminado): versión inicial.
Tamaño de descarga : Unknown size
Tamaño del conjunto de datos : 4.11 GiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
manual_dir debe contener los archivos:
- noticias_diálogo.json
- tren_val_prueba_split.json

Los archivos se pueden descargar y extraer de la página de GitHub del conjunto de datos: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

Almacenamiento automático en caché ( documentación ): No
Divisiones :

Dividir	Ejemplos
`'test'`	10,000
`'train'`	443,596
`'val'`	10,000

Estructura de características :

FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})

Documentación de características :

Característica	Clase	Forma	Tipo D
	CaracterísticasDict
fecha	Texto		cadena
identificación	Texto		cadena
programa	Texto		cadena
vocero	Secuencia (Texto)	(Ninguno,)	cadena
resumen	Texto		cadena
URL	Texto		cadena
utt	Secuencia (Texto)	(Ninguno,)	cadena

Claves supervisadas (ver as_supervised doc ): ('utt', 'summary')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

media_sum Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Ética

media_sum