imdb_reviews

  • Descriptif :

Grand ensemble de données sur les critiques de films. Il s'agit d'un ensemble de données pour la classification des sentiments binaires contenant beaucoup plus de données que les ensembles de données de référence précédents. Nous fournissons un ensemble de 25 000 critiques de films très polaires pour la formation et 25 000 pour les tests. Il existe également des données supplémentaires non étiquetées à utiliser.

Diviser Exemples
'test' 25 000
'train' 25 000
'unsupervised' 50 000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (configuration par défaut)

  • Description de la configuration : Texte brut

  • Taille du jeu de données : 129.83 MiB

  • Structure des fonctionnalités :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
étiquette Étiquette de classe int64
texte Texte chaîne de caractères

imdb_reviews/octets

  • Description de la configuration : utilise l'encodage de texte au niveau de l'octet avec tfds.deprecated.text.ByteTextEncoder

  • Taille du jeu de données : 129.88 MiB

  • Structure des fonctionnalités :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
étiquette Étiquette de classe int64
texte Texte (Aucun,) int64

imdb_reviews/subwords8k

  • Description de la configuration : utilise tfds.deprecated.text.SubwordTextEncoder avec une taille de vocabulaire de 8 k

  • Taille du jeu de données : 54.72 MiB

  • Structure des fonctionnalités :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
étiquette Étiquette de classe int64
texte Texte (Aucun,) int64

imdb_reviews/subwords32k

  • Description de la configuration : Utilise tfds.deprecated.text.SubwordTextEncoder avec une taille de vocabulaire de 32 k

  • Taille du jeu de données : 50.33 MiB

  • Structure des fonctionnalités :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
étiquette Étiquette de classe int64
texte Texte (Aucun,) int64