imdb_reviews

  • Açıklama :

Büyük Film İnceleme Veri Kümesi. Bu, önceki kıyaslama veri kümelerinden önemli ölçüde daha fazla veri içeren ikili duyarlılık sınıflandırması için bir veri kümesidir. Eğitim için 25.000 yüksek kutuplu film incelemesi ve test için 25.000 film incelemesi sağlıyoruz. Kullanım için ek etiketlenmemiş veriler de vardır.

Bölmek örnekler
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Düz metin

  • Veri kümesi boyutu : 129.83 MiB

  • Özellik yapısı :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
etiket SınıfEtiketi int64
Metin Metin sicim

imdb_incelemeleri/bayt

  • Yapılandırma açıklaması : tfds.deprecated.text.ByteTextEncoder ile bayt düzeyinde metin kodlaması kullanır

  • Veri kümesi boyutu : 129.88 MiB

  • Özellik yapısı :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
etiket SınıfEtiketi int64
Metin Metin (Hiçbiri,) int64

imdb_reviews/subwords8k

  • Yapılandırma açıklaması : 8k kelime boyutuna sahip tfds.deprecated.text.SubwordTextEncoder kullanır

  • Veri kümesi boyutu : 54.72 MiB

  • Özellik yapısı :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
etiket SınıfEtiketi int64
Metin Metin (Hiçbiri,) int64

imdb_reviews/subwords32k

  • Yapılandırma açıklaması : 32k kelime boyutuna sahip tfds.deprecated.text.SubwordTextEncoder kullanır

  • Veri kümesi boyutu : 50.33 MiB

  • Özellik yapısı :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
etiket SınıfEtiketi int64
Metin Metin (Hiçbiri,) int64