imdb_reviews

  • Descrição :

Grande conjunto de dados de revisão de filme. Este é um conjunto de dados para classificação de sentimento binário contendo substancialmente mais dados do que os conjuntos de dados de referência anteriores. Fornecemos um conjunto de 25.000 críticas de filmes altamente polarizadas para treinamento e 25.000 para teste. Há dados adicionais não rotulados para uso também.

Dividir Exemplos
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (configuração padrão)

  • Descrição da configuração : texto simples

  • Tamanho do conjunto de dados : 129.83 MiB

  • Estrutura de recursos :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentação do recurso :
Característica Classe Forma Tipo D Descrição
RecursosDict
etiqueta ClassLabel int64
texto Texto corda

imdb_reviews/bytes

  • Descrição da configuração : usa codificação de texto em nível de byte com tfds.deprecated.text.ByteTextEncoder

  • Tamanho do conjunto de dados : 129.88 MiB

  • Estrutura de recursos :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • Documentação do recurso :
Característica Classe Forma Tipo D Descrição
RecursosDict
etiqueta ClassLabel int64
texto Texto (Nenhum,) int64

imdb_reviews/subwords8k

  • Descrição da configuração : usa tfds.deprecated.text.SubwordTextEncoder com tamanho de vocabulário de 8k

  • Tamanho do conjunto de dados : 54.72 MiB

  • Estrutura de recursos :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • Documentação do recurso :
Característica Classe Forma Tipo D Descrição
RecursosDict
etiqueta ClassLabel int64
texto Texto (Nenhum,) int64

imdb_reviews/subwords32k

  • Descrição da configuração : usa tfds.deprecated.text.SubwordTextEncoder com tamanho de vocabulário de 32k

  • Tamanho do conjunto de dados : 50.33 MiB

  • Estrutura de recursos :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • Documentação do recurso :
Característica Classe Forma Tipo D Descrição
RecursosDict
etiqueta ClassLabel int64
texto Texto (Nenhum,) int64