стр.19

  • Описание :

Этот набор данных содержит тест языкового моделирования PG-19. Он включает в себя набор книг, извлеченных из проекта книг Project Gutenberg ( https://www.gutenberg.org ), которые были опубликованы до 1919 года. Он также содержит метаданные названий книг и дат публикации. PG-19 более чем в два раза превышает размер теста Billion Word и содержит документы, которые в среднем в 20 раз длиннее, чем тест моделирования языка дальнего действия WikiText.

Книги разделены на поезд, проверку и набор тестов. Метаданные книг хранятся в файле metadata.csv, который содержит (book_id, short_book_title, publish_date, book_link).

Расколоть Примеры
'test' 100
'train' 28 602
'validation' 50
  • Структура функции :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
book_id Тензор int32
книга_ссылка Тензор нить
книга_текст Текст нить
Заголовок книги Тензор нить
Дата публикации Тензор нить
  • Цитата :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
,

  • Описание :

Этот набор данных содержит тест языкового моделирования PG-19. Он включает в себя набор книг, извлеченных из проекта книг Project Gutenberg ( https://www.gutenberg.org ), которые были опубликованы до 1919 года. Он также содержит метаданные названий книг и дат публикации. PG-19 более чем в два раза превышает размер теста Billion Word и содержит документы, которые в среднем в 20 раз длиннее, чем тест моделирования языка дальнего действия WikiText.

Книги разделены на поезд, проверку и набор тестов. Метаданные книг хранятся в файле metadata.csv, который содержит (book_id, short_book_title, publish_date, book_link).

Расколоть Примеры
'test' 100
'train' 28 602
'validation' 50
  • Структура функции :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
book_id Тензор int32
книга_ссылка Тензор нить
книга_текст Текст нить
Заголовок книги Тензор нить
Дата публикации Тензор нить
  • Цитата :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}