yelp_polarity_reviews

  • Açıklama :

Büyük Yelp İnceleme Veri Kümesi. Bu, ikili duyarlılık sınıflandırması için bir veri kümesidir. Eğitim için 560.000 yüksek kutuplu havlama incelemesi ve test için 38.000 set sağlıyoruz. ORIGIN Yelp inceleme veri seti, Yelp'ten gelen incelemelerden oluşur. Yelp Dataset Challenge 2015 verilerinden alınmıştır. Daha fazla bilgi için lütfen http://www.yelp.com/dataset adresine bakın.

Yelp incelemeleri polarite veri seti, Xiang Zhang (xiang.zhang@nyu.edu) tarafından yukarıdaki veri setinden oluşturulmuştur. İlk olarak şu makalede bir metin sınıflandırma ölçütü olarak kullanılmıştır: Xiang Zhang, Junbo Zhao, Yann LeCun. Metin Sınıflandırması için Karakter Düzeyinde Evrişimli Ağlar. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler 28 (NIPS 2015).

TANIM

Yelp incelemeleri polarite veri seti, yıldız 1 ve 2'nin negatif ve 3 ve 4'ün pozitif olduğu düşünülerek oluşturulur. Her polarite için rastgele 280.000 eğitim örneği ve 19.000 test örneği alınır. Toplamda 560.000 eğitim örneği ve 38.000 test örneği vardır. Negatif polarite 1. sınıf ve pozitif 2. sınıftır.

Train.csv ve test.csv dosyaları, tüm eğitim örneklerini virgülle ayrılmış değerler olarak içerir. İçlerinde sınıf indeksine (1 ve 2) ve inceleme metnine karşılık gelen 2 sütun vardır. İnceleme metinlerinden çift tırnak işareti ("") kullanılarak kaçınılır ve herhangi bir dahili çift tırnak işaretinden 2 çift tırnak ("") çıkarılır. Yeni satırlar, bir ters eğik çizgi ve ardından bir "n" karakteri, yani " " ile atlanır.

Bölmek örnekler
'test' 38.000
'train' 560.000
  • Özellik yapısı :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
etiket SınıfEtiketi int64
Metin Metin sicim
  • Alıntı :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}