pg19

  • Mô tả :

Tập dữ liệu này chứa chuẩn mô hình ngôn ngữ PG-19. Nó bao gồm một bộ sách được trích xuất từ ​​dự án sách Project Gutenberg ( https://www.gutenberg.org ), được xuất bản trước năm 1919. Nó cũng chứa siêu dữ liệu về tên sách và ngày xuất bản. PG-19 có kích thước lớn hơn gấp đôi so với tiêu chuẩn Billion Word và chứa các tài liệu dài hơn trung bình 20 lần so với tiêu chuẩn lập mô hình ngôn ngữ tầm xa của WikiText.

Sách được phân chia thành một tập huấn luyện, xác nhận và kiểm tra. Siêu dữ liệu sách được lưu trữ trong metadata.csv chứa (book_id, short_book_title, Publishing_date, book_link).

  • Trang chủ : https://github.com/deepmind/pg19

  • Mã nguồn : tfds.text.Pg19

  • Các phiên bản :

    • 0.1.1 (mặc định): Không có ghi chú phát hành.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : 10.94 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'test' 100
'train' 28.602
'validation' 50
  • Các tính năng :
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • Trích dẫn :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}