yelp_polarity_reviews

  • Mô tả :

Tập dữ liệu đánh giá lớn của Yelp. Đây là một tập dữ liệu để phân loại tình cảm nhị phân. Chúng tôi cung cấp một tập hợp gồm 560.000 đánh giá về yelp phân cực cao để đào tạo và 38.000 để thử nghiệm. NGUỒN GỐC Tập dữ liệu đánh giá Yelp bao gồm các bài đánh giá từ Yelp. Nó được trích xuất từ ​​dữ liệu của Yelp Dataset Challenge 2015. Để biết thêm thông tin, vui lòng tham khảo http://www.yelp.com/dataset

Yelp đánh giá tập dữ liệu phân cực được xây dựng bởi Xiang Zhang (xiang.zhang@nyu.edu) từ tập dữ liệu trên. Lần đầu tiên nó được sử dụng làm tiêu chuẩn phân loại văn bản trong bài báo sau: Xiang Zhang, Junbo Zhao, Yann LeCun. Mạng quy định cấp ký tự để phân loại văn bản. Những tiến bộ trong hệ thống xử lý thông tin thần kinh 28 (NIPS 2015).

SỰ MÔ TẢ

Tập dữ liệu đánh giá cực tính của Yelp được xây dựng bằng cách xem xét các sao 1 và 2 âm, 3 và 4 dương. Đối với mỗi cực 280.000 mẫu đào tạo và 19.000 mẫu thử nghiệm được lấy ngẫu nhiên. Tổng cộng có 560.000 mẫu trainig và 38.000 mẫu thử nghiệm. Phân cực âm là lớp 1 và cực dương là lớp 2.

Các tệp train.csv và test.csv chứa tất cả các mẫu đào tạo dưới dạng các giá trị dấu phẩy. Có 2 cột trong đó, tương ứng với chỉ mục lớp (1 và 2) và văn bản đánh giá. Các văn bản đánh giá được thoát bằng dấu ngoặc kép (") và bất kỳ dấu ngoặc kép nội bộ nào được thoát bằng 2 dấu ngoặc kép (" "). Các dòng mới được thoát bằng dấu gạch chéo ngược theo sau bằng ký tự" n ", nghĩa là" ".

Tách ra Các ví dụ
'test' 38.000
'train' 560.000
  • Cấu trúc tính năng :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự miêu tả
Các tính năng
nhãn mác ClassLabel tf.int64
bản văn Bản văn tf.string
  • Trích dẫn :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}