yelp_polarity_reviews

  • Descripción :

Gran conjunto de datos de revisión de Yelp. Este es un conjunto de datos para la clasificación de sentimientos binarios. Proporcionamos un conjunto de 560 000 reseñas de aullidos altamente polarizadas para capacitación y 38 000 para pruebas. ORIGEN El conjunto de datos de reseñas de Yelp consta de reseñas de Yelp. Se extrae de los datos de Yelp Dataset Challenge 2015. Para obtener más información, consulte http://www.yelp.com/dataset

Xiang Zhang (xiang.zhang@nyu.edu) construye el conjunto de datos de polaridad de las reseñas de Yelp a partir del conjunto de datos anterior. Se utiliza por primera vez como punto de referencia de clasificación de texto en el siguiente artículo: Xiang Zhang, Junbo Zhao, Yann LeCun. Redes convolucionales a nivel de caracteres para clasificación de texto. Avances en sistemas de procesamiento de información neuronal 28 (NIPS 2015).

DESCRIPCIÓN

El conjunto de datos de polaridad de las revisiones de Yelp se construye considerando las estrellas 1 y 2 negativas, y 3 y 4 positivas. Para cada polaridad se toman aleatoriamente 280.000 muestras de entrenamiento y 19.000 muestras de prueba. En total hay 560.000 muestras de entrenamiento y 38.000 muestras de prueba. La polaridad negativa es de clase 1 y la positiva de clase 2.

Los archivos train.csv y test.csv contienen todas las muestras de entrenamiento como valores separados por comas. Hay 2 columnas en ellos, correspondientes al índice de clase (1 y 2) y al texto de revisión. Los textos de revisión se escapan con comillas dobles ("), y cualquier comilla doble interna se escapa con 2 comillas dobles (""). Las líneas nuevas se escapan con una barra invertida seguida de un carácter "n", es decir, " ".

Separar Ejemplos
'test' 38,000
'train' 560.000
  • Estructura de características :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
etiqueta Etiqueta de clase int64
texto Texto cuerda
  • Cita :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}