pg19

  • 説明:

このデータセットには、PG-19 言語モデリング ベンチマークが含まれています。プロジェクト グーテンベルク ブック プロジェクト ( https://www.gutenberg.org ) から抽出された、1919 年より前に発行された書籍のセットが含まれています。書籍のタイトルと発行日のメタデータも含まれています。 PG-19 は、Billion Word ベンチマークの 2 倍以上のサイズであり、WikiText 長距離言語モデリング ベンチマークよりも平均で 20 倍長いドキュメントが含まれています。

ブックは、トレーニング、検証、およびテスト セットに分割されます。書籍のメタデータは、(book_id、short_book_title、publication_date、book_link) を含む metadata.csv に保存されます。

スプリット
'test' 100
'train' 28,602
'validation' 50
  • 機能構造:
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
book_idテンソルint32
book_linkテンソルストリング
book_text文章ストリング
book_titleテンソルストリング
出版日テンソルストリング
  • 引用
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}
,

  • 説明:

このデータセットには、PG-19 言語モデリング ベンチマークが含まれています。プロジェクト グーテンベルク ブック プロジェクト ( https://www.gutenberg.org ) から抽出された、1919 年より前に発行された書籍のセットが含まれています。書籍のタイトルと発行日のメタデータも含まれています。 PG-19 は、Billion Word ベンチマークの 2 倍以上のサイズであり、WikiText 長距離言語モデリング ベンチマークよりも平均で 20 倍長いドキュメントが含まれています。

ブックは、トレーニング、検証、およびテスト セットに分割されます。書籍のメタデータは、(book_id、short_book_title、publication_date、book_link) を含む metadata.csv に保存されます。

スプリット
'test' 100
'train' 28,602
'validation' 50
  • 機能構造:
FeaturesDict({
   
'book_id': int32,
   
'book_link': string,
   
'book_text': Text(shape=(), dtype=string),
   
'book_title': string,
   
'publication_date': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
book_idテンソルint32
book_linkテンソルストリング
book_text文章ストリング
book_titleテンソルストリング
出版日テンソルストリング
  • 引用
@article{raecompressive2019,
author
= {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
         
Hillier, Chloe and Lillicrap, Timothy P},
title
= {Compressive Transformers for Long-Range Sequence Modelling},
journal
= {arXiv preprint},
url
= {https://arxiv.org/abs/1911.05507},
year
= {2019},
}