- Descrição :
BookSum: uma coleção de conjuntos de dados para resumo narrativo de formato longo
Esta implementação atualmente suporta apenas resumos de livros e capítulos.
GitHub: https://github.com/salesforce/booksum
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/salesforce/booksum
Código -fonte:
tfds.datasets.booksum.Builder
Versões :
-
1.0.0
(padrão): versão inicial.
-
Tamanho do download :
Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):1) Acesse https://github.com/salesforce/booksum e execute as etapas 1 a 3. Coloque todo o projeto
booksum
git na pasta manual. 2) Baixe os livros com capítulos em https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip e descompacte na pasta manual.
A pasta manual deve conter os seguintes diretórios:
- `booksum/`
- `all_chapterized_books/`
Cache automático ( documentação ): Sim (teste, validação), somente quando
shuffle_files=False
(train)Estrutura de recursos :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
documento | Texto | corda | ||
resumo | Texto | corda |
Chaves supervisionadas (consulte
as_supervised
doc ):('document', 'summary')
Figura ( tfds.show_examples ): Não suportado.
Citação :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/book (configuração padrão)
Descrição da configuração : resumo em nível de livro
Tamanho do conjunto de dados :
208.81 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Exemplos ( tfds.as_dataframe ):
livro/capítulo
Descrição da configuração : resumo em nível de capítulo
Tamanho do conjunto de dados :
216.71 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 1.083 |
'train' | 6.524 |
'validation' | 891 |
- Exemplos ( tfds.as_dataframe ):