- Deskripsi :
Kumpulan Data Tinjauan Film Besar. Ini adalah set data untuk klasifikasi sentimen biner yang berisi lebih banyak data daripada set data tolok ukur sebelumnya. Kami menyediakan 25.000 ulasan film yang sangat polar untuk pelatihan, dan 25.000 untuk pengujian. Ada data tambahan yang tidak berlabel untuk digunakan juga.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber :
tfds.datasets.imdb_reviews.Builder
Versi :
-
1.0.0
(default): API split baru ( https://tensorflow.org/datasets/splits )
-
Ukuran unduhan :
80.23 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 25.000 |
'train' | 25.000 |
'unsupervised' | 50.000 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('text', 'label')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (konfigurasi default)
Deskripsi konfigurasi : Teks biasa
Ukuran dataset :
129.83 MiB
Struktur fitur :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
label | LabelKelas | int64 | ||
teks | Teks | rangkaian |
- Contoh ( tfds.as_dataframe ):
imdb_reviews/bytes
Deskripsi konfigurasi : Menggunakan pengodean teks tingkat byte dengan
tfds.deprecated.text.ByteTextEncoder
Ukuran dataset :
129.88 MiB
Struktur fitur :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
label | LabelKelas | int64 | ||
teks | Teks | (Tidak ada,) | int64 |
- Contoh ( tfds.as_dataframe ):
imdb_reviews/subwords8k
Deskripsi konfigurasi : Menggunakan
tfds.deprecated.text.SubwordTextEncoder
dengan ukuran vocab 8kUkuran dataset :
54.72 MiB
Struktur fitur :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
label | LabelKelas | int64 | ||
teks | Teks | (Tidak ada,) | int64 |
- Contoh ( tfds.as_dataframe ):
imdb_reviews/subwords32k
Deskripsi konfigurasi : Menggunakan
tfds.deprecated.text.SubwordTextEncoder
dengan ukuran vocab 32kUkuran dataset :
50.33 MiB
Struktur fitur :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
label | LabelKelas | int64 | ||
teks | Teks | (Tidak ada,) | int64 |
- Contoh ( tfds.as_dataframe ):