pág19

  • Descrição :

Este conjunto de dados contém o benchmark de modelagem de linguagem PG-19. Inclui um conjunto de livros extraídos do projeto de livros do Projeto Gutenberg ( https://www.gutenberg.org ), que foram publicados antes de 1919. Também contém metadados de títulos de livros e datas de publicação. O PG-19 tem mais do que o dobro do tamanho do benchmark Billion Word e contém documentos que são 20X mais longos, em média, do que o benchmark de modelagem de linguagem de longo alcance do WikiText.

Os livros são particionados em um conjunto de treinamento, validação e teste. Os metadados dos livros são armazenados em metadata.csv que contém (book_id, short_book_title, publication_date, book_link).

Dividir Exemplos
'test' 100
'train' 28.602
'validation' 50
  • Estrutura de recursos :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
livro_id tensor int32
livro_link tensor corda
livro_texto Texto corda
título do livro tensor corda
data de publicação tensor corda
  • Citação :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}
,

  • Descrição :

Este conjunto de dados contém o benchmark de modelagem de linguagem PG-19. Inclui um conjunto de livros extraídos do projeto de livros do Projeto Gutenberg ( https://www.gutenberg.org ), que foram publicados antes de 1919. Também contém metadados de títulos de livros e datas de publicação. O PG-19 tem mais do que o dobro do tamanho do benchmark Billion Word e contém documentos que são 20X mais longos, em média, do que o benchmark de modelagem de linguagem de longo alcance do WikiText.

Os livros são particionados em um conjunto de treinamento, validação e teste. Os metadados dos livros são armazenados em metadata.csv que contém (book_id, short_book_title, publication_date, book_link).

Dividir Exemplos
'test' 100
'train' 28.602
'validation' 50
  • Estrutura de recursos :
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
livro_id tensor int32
livro_link tensor corda
livro_texto Texto corda
título do livro tensor corda
data de publicação tensor corda
  • Citação :
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}