- Descrição :
Conjunto de dados de sumarização extrema (XSum).
Existem dois recursos: - documento: entrada de artigo de notícias. - resumo: Resumo de uma frase do artigo.
Esses dados precisam ser baixados manualmente e extraídos conforme descrito em https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md A pasta 'xsum-extracts-from-downloads' precisa ser compactada como 'xsum-extracts-from-downloads.tar.gz' e coloque na pasta baixada manualmente.
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset
Código -fonte:
tfds.summarization.Xsum
Versões :
-
1.0.0
: Conjunto de dados sem limpeza. -
1.1.0
(padrão): remove o conteúdo da web.
-
Tamanho do download :
2.59 MiB
Tamanho do conjunto de dados :
512.03 MiB
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Instruções detalhadas de download (que requerem a execução de um script personalizado) estão aqui: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts Depois , coloque o arquivo xsum-extracts-from-downloads.tar.gz no manual_dir.Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 11.301 |
'train' | 203.577 |
'validation' | 11.305 |
- Estrutura de recursos :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
documento | Texto | corda | ||
resumo | Texto | corda |
Chaves supervisionadas (consulte
as_supervised
doc ):('document', 'summary')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):
- Citação :
@article{Narayan2018DontGM,
title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
journal={ArXiv},
year={2018},
volume={abs/1808.08745}
}