- 説明:
このデータセットには、PG-19 言語モデリング ベンチマークが含まれています。プロジェクト グーテンベルク ブック プロジェクト ( https://www.gutenberg.org ) から抽出された、1919 年より前に発行された書籍のセットが含まれています。書籍のタイトルと発行日のメタデータも含まれています。 PG-19 は、Billion Word ベンチマークの 2 倍以上のサイズであり、WikiText 長距離言語モデリング ベンチマークよりも平均で 20 倍長いドキュメントが含まれています。
ブックは、トレーニング、検証、およびテスト セットに分割されます。書籍のメタデータは、(book_id、short_book_title、publication_date、book_link) を含む metadata.csv に保存されます。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://github.com/deepmind/pg19
ソース コード:
tfds.datasets.pg19.Builder
バージョン:
-
0.1.1
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ: サイズ
Unknown size
データセットサイズ:
10.94 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- 機能構造:
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
book_id | テンソル | int32 | ||
book_link | テンソル | ストリング | ||
book_text | 文章 | ストリング | ||
book_title | テンソル | ストリング | ||
出版日 | テンソル | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
, - 説明:
このデータセットには、PG-19 言語モデリング ベンチマークが含まれています。プロジェクト グーテンベルク ブック プロジェクト ( https://www.gutenberg.org ) から抽出された、1919 年より前に発行された書籍のセットが含まれています。書籍のタイトルと発行日のメタデータも含まれています。 PG-19 は、Billion Word ベンチマークの 2 倍以上のサイズであり、WikiText 長距離言語モデリング ベンチマークよりも平均で 20 倍長いドキュメントが含まれています。
ブックは、トレーニング、検証、およびテスト セットに分割されます。書籍のメタデータは、(book_id、short_book_title、publication_date、book_link) を含む metadata.csv に保存されます。
追加のドキュメント:コード を使用したペーパーの探索
ホームページ: https://github.com/deepmind/pg19
ソース コード:
tfds.datasets.pg19.Builder
バージョン:
-
0.1.1
(デフォルト): リリース ノートはありません。
-
ダウンロードサイズ: サイズ
Unknown size
データセットサイズ:
10.94 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:
スプリット | 例 |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- 機能構造:
FeaturesDict({
'book_id': int32,
'book_link': string,
'book_text': Text(shape=(), dtype=string),
'book_title': string,
'publication_date': string,
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
book_id | テンソル | int32 | ||
book_link | テンソル | ストリング | ||
book_text | 文章 | ストリング | ||
book_title | テンソル | ストリング | ||
出版日 | テンソル | ストリング |
監視されたキー(
as_supervised
docを参照):None
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):
- 引用:
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}