imdb_reviews

  • Deskripsi :

Kumpulan Data Tinjauan Film Besar. Ini adalah set data untuk klasifikasi sentimen biner yang berisi lebih banyak data daripada set data tolok ukur sebelumnya. Kami menyediakan 25.000 ulasan film yang sangat polar untuk pelatihan, dan 25.000 untuk pengujian. Ada data tambahan yang tidak berlabel untuk digunakan juga.

Membelah Contoh
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (konfigurasi default)

  • Deskripsi konfigurasi : Teks biasa

  • Ukuran dataset : 129.83 MiB

  • Struktur fitur :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
label LabelKelas int64
teks Teks rangkaian

imdb_reviews/bytes

  • Deskripsi konfigurasi : Menggunakan pengodean teks tingkat byte dengan tfds.deprecated.text.ByteTextEncoder

  • Ukuran dataset : 129.88 MiB

  • Struktur fitur :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
label LabelKelas int64
teks Teks (Tidak ada,) int64

imdb_reviews/subwords8k

  • Deskripsi konfigurasi : Menggunakan tfds.deprecated.text.SubwordTextEncoder dengan ukuran vocab 8k

  • Ukuran dataset : 54.72 MiB

  • Struktur fitur :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
label LabelKelas int64
teks Teks (Tidak ada,) int64

imdb_reviews/subwords32k

  • Deskripsi konfigurasi : Menggunakan tfds.deprecated.text.SubwordTextEncoder dengan ukuran vocab 32k

  • Ukuran dataset : 50.33 MiB

  • Struktur fitur :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
label LabelKelas int64
teks Teks (Tidak ada,) int64