pg19

  • Descriptif :

Cet ensemble de données contient le benchmark de modélisation de langage PG-19. Il comprend un ensemble de livres extraits du projet de livres Project Gutenberg ( https://www.gutenberg.org ), qui ont été publiés avant 1919. Il contient également des métadonnées sur les titres de livres et les dates de publication. PG-19 est plus du double de la taille du benchmark Billion Word et contient des documents qui sont 20 fois plus longs, en moyenne, que le benchmark de modélisation de langage à longue portée WikiText.

Les livres sont partitionnés en un ensemble de train, de validation et de test. Les métadonnées des livres sont stockées dans metadata.csv qui contient (book_id, short_book_title, publication_date, book_link).

Diviser Exemples
'test' 100
'train' 28 602
'validation' 50
  • Structure des fonctionnalités :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
book_id Tenseur int32
book_link Tenseur chaîne de caractères
book_text Texte chaîne de caractères
titre de livre Tenseur chaîne de caractères
date de publication Tenseur chaîne de caractères
  • Citation :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}
,

  • Descriptif :

Cet ensemble de données contient le benchmark de modélisation de langage PG-19. Il comprend un ensemble de livres extraits du projet de livres Project Gutenberg ( https://www.gutenberg.org ), qui ont été publiés avant 1919. Il contient également des métadonnées sur les titres de livres et les dates de publication. PG-19 est plus du double de la taille du benchmark Billion Word et contient des documents qui sont 20 fois plus longs, en moyenne, que le benchmark de modélisation de langage à longue portée WikiText.

Les livres sont partitionnés en un ensemble de train, de validation et de test. Les métadonnées des livres sont stockées dans metadata.csv qui contient (book_id, short_book_title, publication_date, book_link).

Diviser Exemples
'test' 100
'train' 28 602
'validation' 50
  • Structure des fonctionnalités :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
book_id Tenseur int32
book_link Tenseur chaîne de caractères
book_text Texte chaîne de caractères
titre de livre Tenseur chaîne de caractères
date de publication Tenseur chaîne de caractères
  • Citation :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}