yelp_polarity_reviews

  • Descriptif :

Vaste ensemble de données d'examen Yelp. Il s'agit d'un ensemble de données pour la classification des sentiments binaires. Nous fournissons un ensemble de 560 000 avis très polaires pour la formation et 38 000 pour les tests. ORIGINE L'ensemble de données des avis Yelp se compose d'avis de Yelp. Il est extrait des données Yelp Dataset Challenge 2015. Pour plus d'informations, veuillez consulter http://www.yelp.com/dataset

L'ensemble de données de polarité des avis Yelp est construit par Xiang Zhang (xiang.zhang@nyu.edu) à partir de l'ensemble de données ci-dessus. Il est utilisé pour la première fois comme référence de classification de texte dans l'article suivant : Xiang Zhang, Junbo Zhao, Yann LeCun. Réseaux convolutifs au niveau des caractères pour la classification de texte. Avancées dans les systèmes de traitement de l'information neuronale 28 (NIPS 2015).

LA DESCRIPTION

L'ensemble de données de polarité des avis Yelp est construit en considérant les étoiles 1 et 2 négatives, et 3 et 4 positives. Pour chaque polarité, 280 000 échantillons d'apprentissage et 19 000 échantillons de test sont prélevés au hasard. Au total, il y a 560 000 échantillons d'entraînement et 38 000 échantillons de test. La polarité négative correspond à la classe 1 et la classe positive à la classe 2.

Les fichiers train.csv et test.csv contiennent tous les échantillons d'apprentissage sous forme de valeurs séparées par des virgules. Il y a 2 colonnes en eux, correspondant à l'index de classe (1 et 2) et au texte de révision. Les textes de révision sont échappés à l'aide de guillemets doubles ("), et tout guillemet double interne est échappé par 2 guillemets doubles (""). Les nouvelles lignes sont échappées par une barre oblique inverse suivie d'un caractère "n", c'est-à-dire " ".

Diviser Exemples
'test' 38 000
'train' 560 000
  • Structure des fonctionnalités :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
étiquette Étiquette de classe int64
texte Texte chaîne de caractères
  • Citation :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}