yelp_polarity_reviews

  • Deskripsi :

Kumpulan Data Tinjauan Yelp Besar. Ini adalah kumpulan data untuk klasifikasi sentimen biner. Kami menyediakan 560.000 ulasan yelp yang sangat polar untuk pelatihan, dan 38.000 untuk pengujian. ASAL Dataset ulasan Yelp terdiri dari ulasan dari Yelp. Ini diambil dari data Yelp Dataset Challenge 2015. Untuk informasi lebih lanjut, silakan merujuk ke http://www.yelp.com/dataset

Dataset polaritas ulasan Yelp dibangun oleh Xiang Zhang (xiang.zhang@nyu.edu) dari dataset di atas. Ini pertama kali digunakan sebagai tolok ukur klasifikasi teks dalam makalah berikut: Xiang Zhang, Junbo Zhao, Yann LeCun. Jaringan Konvolusional Tingkat Karakter untuk Klasifikasi Teks. Kemajuan dalam Sistem Pemrosesan Informasi Neural 28 (NIPS 2015).

KETERANGAN

Dataset polaritas ulasan Yelp dibangun dengan mempertimbangkan bintang 1 dan 2 negatif, dan 3 dan 4 positif. Untuk setiap polaritas diambil 280.000 sampel pelatihan dan 19.000 sampel pengujian secara acak. Total ada 560.000 sampel pelatihan dan 38.000 sampel pengujian. Polaritas negatif adalah kelas 1, dan kelas positif 2.

File train.csv dan test.csv berisi semua sampel pelatihan sebagai nilai yang dipisahkan koma. Ada 2 kolom di dalamnya, sesuai dengan indeks kelas (1 dan 2) dan teks ulasan. Teks ulasan diloloskan menggunakan tanda kutip ganda ("), dan setiap tanda kutip ganda internal diloloskan dengan 2 tanda kutip ganda (""). Baris baru diloloskan dengan garis miring terbalik diikuti dengan karakter "n", yaitu " ".

Membelah Contoh
'test' 38.000
'train' 560.000
  • Struktur fitur :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
label LabelKelas int64
teks Teks rangkaian
  • Kutipan :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}