pag19

  • Descrizione :

Questo set di dati contiene il benchmark di modellazione del linguaggio PG-19. Include una serie di libri estratti dal progetto libri Project Gutenberg ( https://www.gutenberg.org ), che sono stati pubblicati prima del 1919. Contiene anche metadati di titoli di libri e date di pubblicazione. PG-19 è oltre il doppio delle dimensioni del benchmark Billion Word e contiene documenti che sono in media 20 volte più lunghi del benchmark di modellazione linguistica a lungo raggio WikiText.

I libri sono partizionati in treno, validazione e set di test. I metadati dei libri sono archiviati in metadata.csv che contiene (id_libro, titolo_libro_breve, data_pubblicazione, collegamento_libro).

Diviso Esempi
'test' 100
'train' 28.602
'validation' 50
  • Struttura delle caratteristiche :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
id_libro Tensore int32
collegamento_libro Tensore corda
libro_testo Testo corda
titolo del libro Tensore corda
data di pubblicazione Tensore corda
  • Citazione :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
,

  • Descrizione :

Questo set di dati contiene il benchmark di modellazione del linguaggio PG-19. Include una serie di libri estratti dal progetto libri Project Gutenberg ( https://www.gutenberg.org ), che sono stati pubblicati prima del 1919. Contiene anche metadati di titoli di libri e date di pubblicazione. PG-19 è oltre il doppio delle dimensioni del benchmark Billion Word e contiene documenti che sono in media 20 volte più lunghi del benchmark di modellazione linguistica a lungo raggio WikiText.

I libri sono partizionati in treno, validazione e set di test. I metadati dei libri sono archiviati in metadata.csv che contiene (id_libro, titolo_libro_breve, data_pubblicazione, collegamento_libro).

Diviso Esempi
'test' 100
'train' 28.602
'validation' 50
  • Struttura delle caratteristiche :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
id_libro Tensore int32
collegamento_libro Tensore corda
libro_testo Testo corda
titolo del libro Tensore corda
data di pubblicazione Tensore corda
  • Citazione :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}