pag19

  • Descrizione :

Questo set di dati contiene il benchmark di modellazione del linguaggio PG-19. Include una serie di libri estratti dal progetto libri Project Gutenberg ( https://www.gutenberg.org ), che sono stati pubblicati prima del 1919. Contiene anche metadati di titoli di libri e date di pubblicazione. PG-19 è oltre il doppio delle dimensioni del benchmark Billion Word e contiene documenti che sono in media 20 volte più lunghi del benchmark di modellazione linguistica a lungo raggio WikiText.

I libri sono partizionati in treno, validazione e set di test. I metadati dei libri sono archiviati in metadata.csv che contiene (id_libro, titolo_libro_breve, data_pubblicazione, collegamento_libro).

Diviso Esempi
'test' 100
'train' 28.602
'validation' 50
  • Struttura delle caratteristiche :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
id_libro Tensore int32
collegamento_libro Tensore corda
libro_testo Testo corda
titolo del libro Tensore corda
data di pubblicazione Tensore corda
  • Citazione :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}
,

  • Descrizione :

Questo set di dati contiene il benchmark di modellazione del linguaggio PG-19. Include una serie di libri estratti dal progetto libri Project Gutenberg ( https://www.gutenberg.org ), che sono stati pubblicati prima del 1919. Contiene anche metadati di titoli di libri e date di pubblicazione. PG-19 è oltre il doppio delle dimensioni del benchmark Billion Word e contiene documenti che sono in media 20 volte più lunghi del benchmark di modellazione linguistica a lungo raggio WikiText.

I libri sono partizionati in treno, validazione e set di test. I metadati dei libri sono archiviati in metadata.csv che contiene (id_libro, titolo_libro_breve, data_pubblicazione, collegamento_libro).

Diviso Esempi
'test' 100
'train' 28.602
'validation' 50
  • Struttura delle caratteristiche :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
id_libro Tensore int32
collegamento_libro Tensore corda
libro_testo Testo corda
titolo del libro Tensore corda
data di pubblicazione Tensore corda
  • Citazione :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}