imdb_reviews

  • Mô tả :

Bộ dữ liệu đánh giá phim lớn. Đây là bộ dữ liệu để phân loại tình cảm nhị phân chứa nhiều dữ liệu hơn đáng kể so với bộ dữ liệu điểm chuẩn trước đó. Chúng tôi cung cấp một bộ gồm 25.000 bài đánh giá phim có tính phân cực cao để đào tạo và 25.000 bài để thử nghiệm. Có thêm dữ liệu chưa được gắn nhãn để sử dụng.

Tách ra ví dụ
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (cấu hình mặc định)

  • Mô tả cấu hình : Văn bản thuần túy

  • Kích thước tập dữ liệu : 129.83 MiB

  • Cấu trúc tính năng :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nhãn mác LớpNhãn int64
chữ Chữ sợi dây

imdb_reviews/byte

  • Mô tả cấu hình : Sử dụng mã hóa văn bản ở mức byte với tfds.deprecated.text.ByteTextEncoder

  • Kích thước tập dữ liệu : 129.88 MiB

  • Cấu trúc tính năng :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nhãn mác LớpNhãn int64
chữ Chữ (Không có,) int64

imdb_reviews/subwords8k

  • Mô tả cấu hình : Sử dụng tfds.deprecated.text.SubwordTextEncoder với kích thước từ vựng 8k

  • Kích thước tập dữ liệu : 54.72 MiB

  • Cấu trúc tính năng :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nhãn mác LớpNhãn int64
chữ Chữ (Không có,) int64

imdb_reviews/từ phụ32k

  • Mô tả cấu hình : Sử dụng tfds.deprecated.text.SubwordTextEncoder với kích thước từ vựng 32k

  • Kích thước tập dữ liệu : 50.33 MiB

  • Cấu trúc tính năng :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nhãn mác LớpNhãn int64
chữ Chữ (Không có,) int64