- Mô tả :
Tập dữ liệu đánh giá lớn của Yelp. Đây là một tập dữ liệu để phân loại tình cảm nhị phân. Chúng tôi cung cấp một tập hợp gồm 560.000 đánh giá về yelp phân cực cao để đào tạo và 38.000 để thử nghiệm. NGUỒN GỐC Tập dữ liệu đánh giá Yelp bao gồm các bài đánh giá từ Yelp. Nó được trích xuất từ dữ liệu của Yelp Dataset Challenge 2015. Để biết thêm thông tin, vui lòng tham khảo http://www.yelp.com/dataset
Yelp đánh giá tập dữ liệu phân cực được xây dựng bởi Xiang Zhang (xiang.zhang@nyu.edu) từ tập dữ liệu trên. Lần đầu tiên nó được sử dụng làm tiêu chuẩn phân loại văn bản trong bài báo sau: Xiang Zhang, Junbo Zhao, Yann LeCun. Mạng quy định cấp ký tự để phân loại văn bản. Những tiến bộ trong hệ thống xử lý thông tin thần kinh 28 (NIPS 2015).
SỰ MÔ TẢ
Tập dữ liệu đánh giá cực tính của Yelp được xây dựng bằng cách xem xét các sao 1 và 2 âm, 3 và 4 dương. Đối với mỗi cực 280.000 mẫu đào tạo và 19.000 mẫu thử nghiệm được lấy ngẫu nhiên. Tổng cộng có 560.000 mẫu trainig và 38.000 mẫu thử nghiệm. Phân cực âm là lớp 1 và cực dương là lớp 2.
Các tệp train.csv và test.csv chứa tất cả các mẫu đào tạo dưới dạng các giá trị dấu phẩy. Có 2 cột trong đó, tương ứng với chỉ mục lớp (1 và 2) và văn bản đánh giá. Các văn bản đánh giá được thoát bằng dấu ngoặc kép (") và bất kỳ dấu ngoặc kép nội bộ nào được thoát bằng 2 dấu ngoặc kép (" "). Các dòng mới được thoát bằng dấu gạch chéo ngược theo sau bằng ký tự" n ", nghĩa là" ".
Trang chủ : https://course.fast.ai/datasets
Mã nguồn :
tfds.text.YelpPolarityReviews
Các phiên bản :
-
0.2.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tải xuống :
158.67 MiB
Kích thước tập dữ liệu :
435.14 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không
Tách :
Tách ra | Các ví dụ |
---|---|
'test' | 38.000 |
'train' | 560.000 |
- Cấu trúc tính năng :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự miêu tả |
---|---|---|---|---|
Các tính năng | ||||
nhãn mác | ClassLabel | tf.int64 | ||
bản văn | Bản văn | tf.string |
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):
- Trích dẫn :
@article{zhangCharacterlevelConvolutionalNetworks2015,
archivePrefix = {arXiv},
eprinttype = {arxiv},
eprint = {1509.01626},
primaryClass = {cs},
title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
journal = {arXiv:1509.01626 [cs]},
author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
month = sep,
year = {2015},
}