- Descrição :
Grande conjunto de dados de revisão de filme. Este é um conjunto de dados para classificação de sentimento binário contendo substancialmente mais dados do que os conjuntos de dados de referência anteriores. Fornecemos um conjunto de 25.000 críticas de filmes altamente polarizadas para treinamento e 25.000 para teste. Há dados adicionais não rotulados para uso também.
Documentação Adicional : Explore em Papers With Code
Código-fonte :
tfds.datasets.imdb_reviews.Builder
Versões :
-
1.0.0
(padrão): Nova API de divisão ( https://tensorflow.org/datasets/splits )
-
Tamanho do download :
80.23 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 25.000 |
'train' | 25.000 |
'unsupervised' | 50.000 |
Chaves supervisionadas (Consulte
as_supervised
doc ):('text', 'label')
Figura ( tfds.show_examples ): Não suportado.
Citação :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (configuração padrão)
Descrição da configuração : texto simples
Tamanho do conjunto de dados :
129.83 MiB
Estrutura de recursos :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(), dtype=string),
})
- Documentação do recurso :
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
etiqueta | ClassLabel | int64 | ||
texto | Texto | corda |
- Exemplos ( tfds.as_dataframe ):
imdb_reviews/bytes
Descrição da configuração : usa codificação de texto em nível de byte com
tfds.deprecated.text.ByteTextEncoder
Tamanho do conjunto de dados :
129.88 MiB
Estrutura de recursos :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- Documentação do recurso :
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
etiqueta | ClassLabel | int64 | ||
texto | Texto | (Nenhum,) | int64 |
- Exemplos ( tfds.as_dataframe ):
imdb_reviews/subwords8k
Descrição da configuração : usa
tfds.deprecated.text.SubwordTextEncoder
com tamanho de vocabulário de 8kTamanho do conjunto de dados :
54.72 MiB
Estrutura de recursos :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- Documentação do recurso :
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
etiqueta | ClassLabel | int64 | ||
texto | Texto | (Nenhum,) | int64 |
- Exemplos ( tfds.as_dataframe ):
imdb_reviews/subwords32k
Descrição da configuração : usa
tfds.deprecated.text.SubwordTextEncoder
com tamanho de vocabulário de 32kTamanho do conjunto de dados :
50.33 MiB
Estrutura de recursos :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- Documentação do recurso :
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
etiqueta | ClassLabel | int64 | ||
texto | Texto | (Nenhum,) | int64 |
- Exemplos ( tfds.as_dataframe ):