somme de livres

  • Descriptif :

BookSum : une collection d'ensembles de données pour le résumé narratif de forme longue

Cette implémentation ne prend actuellement en charge que les résumés de livres et de chapitres.

GitHub : https://github.com/salesforce/booksum

Le dossier du manuel doit contenir les répertoires suivants :

- `booksum/`
- `all_chapterized_books/`
  • Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque shuffle_files=False (train)

  • Structure des fonctionnalités :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
document Texte chaîne de caractères
sommaire Texte chaîne de caractères
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/book (configuration par défaut)

  • Description de la configuration : résumé au niveau du livre

  • Taille du jeu de données : 208.81 MiB

  • Fractionnements :

Diviser Exemples
'test' 46
'train' 312
'validation' 45

livre/chapitre

  • Description de la configuration : résumé au niveau du chapitre

  • Taille du jeu de données : 216.71 MiB

  • Fractionnements :

Diviser Exemples
'test' 1 083
'train' 6 524
'validation' 891