- Descriptif :
Cet ensemble de données contient le benchmark de modélisation de langage PG-19. Il comprend un ensemble de livres extraits du projet de livres Project Gutenberg ( https://www.gutenberg.org ), qui ont été publiés avant 1919. Il contient également des métadonnées sur les titres de livres et les dates de publication. PG-19 est plus du double de la taille du benchmark Billion Word et contient des documents qui sont 20 fois plus longs, en moyenne, que le benchmark de modélisation de langage à longue portée WikiText.
Les livres sont partitionnés en un ensemble de train, de validation et de test. Les métadonnées des livres sont stockées dans metadata.csv qui contient (book_id, short_book_title, publication_date, book_link).
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/deepmind/pg19
Code source :
tfds.datasets.pg19.Builder
Versions :
-
0.1.1
(par défaut) : aucune note de version.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
10.94 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 100 |
'train' | 28 602 |
'validation' | 50 |
- Structure des fonctionnalités :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
book_id | Tenseur | int32 | ||
book_link | Tenseur | chaîne de caractères | ||
book_text | Texte | chaîne de caractères | ||
titre de livre | Tenseur | chaîne de caractères | ||
date de publication | Tenseur | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - Descriptif :
Cet ensemble de données contient le benchmark de modélisation de langage PG-19. Il comprend un ensemble de livres extraits du projet de livres Project Gutenberg ( https://www.gutenberg.org ), qui ont été publiés avant 1919. Il contient également des métadonnées sur les titres de livres et les dates de publication. PG-19 est plus du double de la taille du benchmark Billion Word et contient des documents qui sont 20 fois plus longs, en moyenne, que le benchmark de modélisation de langage à longue portée WikiText.
Les livres sont partitionnés en un ensemble de train, de validation et de test. Les métadonnées des livres sont stockées dans metadata.csv qui contient (book_id, short_book_title, publication_date, book_link).
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/deepmind/pg19
Code source :
tfds.datasets.pg19.Builder
Versions :
-
0.1.1
(par défaut) : aucune note de version.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
10.94 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 100 |
'train' | 28 602 |
'validation' | 50 |
- Structure des fonctionnalités :
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
book_id | Tenseur | int32 | ||
book_link | Tenseur | chaîne de caractères | ||
book_text | Texte | chaîne de caractères | ||
titre de livre | Tenseur | chaîne de caractères | ||
date de publication | Tenseur | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}