- Descriptif :
Grand ensemble de données sur les critiques de films. Il s'agit d'un ensemble de données pour la classification des sentiments binaires contenant beaucoup plus de données que les ensembles de données de référence précédents. Nous fournissons un ensemble de 25 000 critiques de films très polaires pour la formation et 25 000 pour les tests. Il existe également des données supplémentaires non étiquetées à utiliser.
Documentation complémentaire : Explorer sur Papers With Code
Page d'accueil : http://ai.stanford.edu/~amaas/data/sentiment/
Code source :
tfds.datasets.imdb_reviews.Builder
Versions :
-
1.0.0
(par défaut) : nouvelle API fractionnée ( https://tensorflow.org/datasets/splits )
-
Taille du téléchargement :
80.23 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 25 000 |
'train' | 25 000 |
'unsupervised' | 50 000 |
Touches supervisées (Voir
as_supervised
doc ):('text', 'label')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (configuration par défaut)
Description de la configuration : Texte brut
Taille du jeu de données :
129.83 MiB
Structure des fonctionnalités :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
étiquette | Étiquette de classe | int64 | ||
texte | Texte | chaîne de caractères |
- Exemples ( tfds.as_dataframe ):
imdb_reviews/octets
Description de la configuration : utilise l'encodage de texte au niveau de l'octet avec
tfds.deprecated.text.ByteTextEncoder
Taille du jeu de données :
129.88 MiB
Structure des fonctionnalités :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
étiquette | Étiquette de classe | int64 | ||
texte | Texte | (Aucun,) | int64 |
- Exemples ( tfds.as_dataframe ):
imdb_reviews/subwords8k
Description de la configuration : utilise
tfds.deprecated.text.SubwordTextEncoder
avec une taille de vocabulaire de 8 kTaille du jeu de données :
54.72 MiB
Structure des fonctionnalités :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
étiquette | Étiquette de classe | int64 | ||
texte | Texte | (Aucun,) | int64 |
- Exemples ( tfds.as_dataframe ):
imdb_reviews/subwords32k
Description de la configuration : Utilise
tfds.deprecated.text.SubwordTextEncoder
avec une taille de vocabulaire de 32 kTaille du jeu de données :
50.33 MiB
Structure des fonctionnalités :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
étiquette | Étiquette de classe | int64 | ||
texte | Texte | (Aucun,) | int64 |
- Exemples ( tfds.as_dataframe ):