- Descripción :
NEWSROOM es un gran conjunto de datos para entrenar y evaluar sistemas de resumen. Contiene 1,3 millones de artículos y resúmenes escritos por autores y editores en las salas de redacción de 38 publicaciones importantes.
Las características del conjunto de datos incluyen:
- text: Ingrese el texto de la noticia.
- resumen: Resumen de la noticia.
Y características adicionales:
- título: título de la noticia.
- url: url de la noticia.
- fecha: fecha del artículo.
- densidad: densidad extractiva.
- cobertura: cobertura extractiva.
- compresión: relación de compresión.
- densidad_bin: bajo, medio, alto.
- covery_bin: extractivo, abstractivo.
- compresión_bin: bajo, medio, alto.
Este conjunto de datos se puede descargar a pedido. Descomprima todo el contenido "train.jsonl, dev.jsonl, test.jsonl" en la carpeta tfds.
- Documentación adicional : Explore en Papers With Code 
- Página de inicio: https://summari.es 
- Código fuente : - tfds.datasets.newsroom.Builder
- Versiones : -  1.0.0(predeterminado): Sin notas de la versión.
 
-  
- Tamaño de descarga : - Unknown size
- Tamaño del conjunto de datos : - 5.13 GiB
- Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en - download_config.manual_dir(el valor predeterminado es- ~/tensorflow_datasets/downloads/manual/):
 Debe descargar el conjunto de datos de https://summari.es/download/ La página web requiere registro. Después de la descarga, coloque los archivos dev.jsonl, test.jsonl y train.jsonl en manual_dir.
- Almacenamiento automático en caché ( documentación ): No 
- Divisiones : 
| Dividir | Ejemplos | 
|---|---|
| 'test' | 108,862 | 
| 'train' | 995,041 | 
| 'validation' | 108,837 | 
- Estructura de características :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
- Documentación de características :
| Característica | Clase | Forma | Tipo D | Descripción | 
|---|---|---|---|---|
| CaracterísticasDict | ||||
| compresión | Tensor | flotar32 | ||
| compresión_bin | Texto | cadena | ||
| cobertura | Tensor | flotar32 | ||
| cobertura_bin | Texto | cadena | ||
| fecha | Texto | cadena | ||
| densidad | Tensor | flotar32 | ||
| densidad_bin | Texto | cadena | ||
| resumen | Texto | cadena | ||
| texto | Texto | cadena | ||
| título | Texto | cadena | ||
| URL | Texto | cadena | 
- Claves supervisadas (ver - as_superviseddoc ):- ('text', 'summary')
- Figura ( tfds.show_examples ): no compatible. 
- Ejemplos ( tfds.as_dataframe ): 
- Cita :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}