- Descripción :
Conjunto de datos de resumen extremo (XSum).
Hay dos características: - documento: artículo de entrada de noticias. - resumen: Resumen de una oración del artículo.
Estos datos deben descargarse y extraerse manualmente como se describe en https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md La carpeta 'xsum-extracts-from-downloads' debe comprimirse como 'xsum-extracts-from-downloads.tar.gz' y colóquelo en la carpeta descargada manualmente.
Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
Código fuente :
tfds.summarization.Xsum
Versiones :
-
1.0.0
: conjunto de datos sin limpieza. -
1.1.0
(predeterminado): Elimina contenidos web.
-
Tamaño de la descarga :
2.59 MiB
Tamaño del conjunto de datos :
512.03 MiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en
download_config.manual_dir
(el valor predeterminado es~/tensorflow_datasets/downloads/manual/
):
Las instrucciones detalladas de descarga (que requieren ejecutar un script personalizado) están aquí: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts , coloque el archivo xsum-extracts-from-downloads.tar.gz en manual_dir.Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 11,301 |
'train' | 203,577 |
'validation' | 11,305 |
- Estructura de características :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
documento | Texto | cuerda | ||
resumen | Texto | cuerda |
Claves supervisadas (Ver
as_supervised
):('document', 'summary')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):
- Cita :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}