imdb_reviews

  • Mô tả :

Tập dữ liệu đánh giá phim lớn. Đây là tập dữ liệu để phân loại tình cảm nhị phân chứa nhiều dữ liệu hơn đáng kể so với tập dữ liệu chuẩn trước đó. Chúng tôi cung cấp một bộ 25.000 bài đánh giá phim có tính phân cực cao để đào tạo và 25.000 để thử nghiệm. Cũng có thêm dữ liệu chưa được gắn nhãn để sử dụng.

Tách ra Các ví dụ
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews / trơn_text (cấu hình mặc định)

  • Mô tả cấu hình : Văn bản thuần túy

  • Cấu trúc tính năng :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
nhãn mác ClassLabel tf.int64
chữ Chữ tf.string

imdb_reviews / byte

  • Mô tả cấu hình : Sử dụng mã hóa văn bản cấp byte với tfds.deprecated.text.ByteTextEncoder

  • Cấu trúc tính năng :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
nhãn mác ClassLabel tf.int64
chữ Chữ (Không có,) tf.int64

imdb_reviews / subwords8k

  • Mô tả cấu hình : Sử dụng tfds.deprecated.text.SubwordTextEncoder với kích thước vocab 8k

  • Cấu trúc tính năng :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
nhãn mác ClassLabel tf.int64
chữ Chữ (Không có,) tf.int64

imdb_reviews / subwords32k

  • Mô tả cấu hình : Sử dụng tfds.deprecated.text.SubwordTextEncoder với kích thước vocab 32k

  • Cấu trúc tính năng :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
nhãn mác ClassLabel tf.int64
chữ Chữ (Không có,) tf.int64