- 説明:
大規模な映画レビュー データセット。これは、以前のベンチマーク データセットよりも大幅に多くのデータを含むバイナリ センチメント分類用のデータセットです。トレーニング用に 25,000 の極性の高い映画レビューのセットと、テスト用に 25,000 のセットを提供します。追加のラベルなしデータも使用できます。
追加のドキュメント:コード を使用したペーパーの探索
ソース コード:
tfds.datasets.imdb_reviews.Builder
バージョン:
-
1.0.0
(デフォルト): 新しい分割 API ( https://tensorflow.org/datasets/splits )
-
ダウンロードサイズ:
80.23 MiB
自動キャッシュ(ドキュメント): はい
スプリット:
スプリット | 例 |
---|---|
'test' | 25,000 |
'train' | 25,000 |
'unsupervised' | 50,000 |
監視されたキー(
as_supervised
docを参照):('text', 'label')
図( tfds.show_examples ): サポートされていません。
引用:
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (デフォルト設定)
構成の説明: プレーン テキスト
データセットサイズ:
129.83 MiB
機能構造:
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ラベル | クラスラベル | int64 | ||
文章 | 文章 | ストリング |
- 例( tfds.as_dataframe ):
imdb_reviews/bytes
構成の説明:
tfds.deprecated.text.ByteTextEncoder
でバイトレベルのテキスト エンコーディングを使用しますデータセットのサイズ:
129.88 MiB
機能構造:
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ラベル | クラスラベル | int64 | ||
文章 | 文章 | (なし、) | int64 |
- 例( tfds.as_dataframe ):
imdb_reviews/subwords8k
構成の説明:
tfds.deprecated.text.SubwordTextEncoder
を 8k ボキャブ サイズで使用しますデータセットのサイズ:
54.72 MiB
機能構造:
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ラベル | クラスラベル | int64 | ||
文章 | 文章 | (なし、) | int64 |
- 例( tfds.as_dataframe ):
imdb_reviews/subwords32k
構成の説明: 32k ボキャブ サイズの
tfds.deprecated.text.SubwordTextEncoder
を使用しますデータセットサイズ:
50.33 MiB
機能構造:
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- 機能のドキュメント:
特徴 | クラス | 形 | Dtype | 説明 |
---|---|---|---|---|
特徴辞書 | ||||
ラベル | クラスラベル | int64 | ||
文章 | 文章 | (なし、) | int64 |
- 例( tfds.as_dataframe ):