soma de livros

  • Descrição :

BookSum: uma coleção de conjuntos de dados para resumo narrativo de formato longo

Esta implementação atualmente suporta apenas resumos de livros e capítulos.

GitHub: https://github.com/salesforce/booksum

A pasta manual deve conter os seguintes diretórios:

- `booksum/`
- `all_chapterized_books/`
  • Cache automático ( documentação ): Sim (teste, validação), somente quando shuffle_files=False (train)

  • Estrutura de recursos :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
documento Texto corda
resumo Texto corda
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/book (configuração padrão)

  • Descrição da configuração : resumo em nível de livro

  • Tamanho do conjunto de dados : 208.81 MiB

  • Divisões :

Dividir Exemplos
'test' 46
'train' 312
'validation' 45

livro/capítulo

  • Descrição da configuração : resumo em nível de capítulo

  • Tamanho do conjunto de dados : 216.71 MiB

  • Divisões :

Dividir Exemplos
'test' 1.083
'train' 6.524
'validation' 891