- Descriptif :
BookSum : une collection d'ensembles de données pour le résumé narratif de forme longue
Cette implémentation ne prend actuellement en charge que les résumés de livres et de chapitres.
GitHub : https://github.com/salesforce/booksum
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/salesforce/booksum
Code source :
tfds.datasets.booksum.BuilderVersions :
-
1.0.0(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown sizeInstructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir(par défaut~/tensorflow_datasets/downloads/manual/) :1) Accédez à https://github.com/salesforce/booksum et exécutez les étapes 1 à 3. Placez l'ensemble du projet
booksumgit dans le dossier manual. 2) Téléchargez les livres chapitrenés sur https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip et décompressez-les dans le dossier du manuel.
Le dossier du manuel doit contenir les répertoires suivants :
- `booksum/`
- `all_chapterized_books/`
Mise en cache automatique ( documentation ): Oui (test, validation), Uniquement lorsque
shuffle_files=False(train)Structure des fonctionnalités :
FeaturesDict({
'document': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
| Caractéristique | Classer | Forme | Dtype | La description |
|---|---|---|---|---|
| FonctionnalitésDict | ||||
| document | Texte | chaîne de caractères | ||
| sommaire | Texte | chaîne de caractères |
Clés supervisées (Voir
as_superviseddoc ):('document', 'summary')Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
booksum/book (configuration par défaut)
Description de la configuration : résumé au niveau du livre
Taille du jeu de données :
208.81 MiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Exemples ( tfds.as_dataframe ):
livre/chapitre
Description de la configuration : résumé au niveau du chapitre
Taille du jeu de données :
216.71 MiBFractionnements :
| Diviser | Exemples |
|---|---|
'test' | 1 083 |
'train' | 6 524 |
'validation' | 891 |
- Exemples ( tfds.as_dataframe ):