yelp_polarity_reviews

Mô tả :

Bộ dữ liệu đánh giá Yelp lớn. Đây là tập dữ liệu để phân loại tình cảm nhị phân. Chúng tôi cung cấp một bộ gồm 560.000 bài đánh giá yelp có tính phân cực cao để đào tạo và 38.000 bài để thử nghiệm. NGUỒN GỐC Bộ dữ liệu đánh giá Yelp bao gồm các đánh giá từ Yelp. Nó được trích xuất từ dữ liệu Yelp Dataset Challenge 2015. Để biết thêm thông tin, vui lòng tham khảo http://www.yelp.com/dataset

Bộ dữ liệu phân cực đánh giá Yelp được xây dựng bởi Xiang Zhang (xiang.zhang@nyu.edu) từ bộ dữ liệu trên. Nó lần đầu tiên được sử dụng làm tiêu chuẩn phân loại văn bản trong bài báo sau: Xiang Zhang, Junbo Zhao, Yann LeCun. Mạng tích chập cấp độ ký tự để phân loại văn bản. Những tiến bộ trong Hệ thống xử lý thông tin thần kinh 28 (NIPS 2015).

SỰ MÔ TẢ

Bộ dữ liệu phân cực đánh giá Yelp được xây dựng bằng cách xem xét các ngôi sao 1 và 2 âm và 3 và 4 dương. Đối với mỗi cực, 280.000 mẫu đào tạo và 19.000 mẫu thử nghiệm được lấy ngẫu nhiên. Tổng cộng có 560.000 mẫu đào tạo và 38.000 mẫu thử nghiệm. Cực âm là loại 1, và cực dương là loại 2.

Các tệp train.csv và test.csv chứa tất cả các mẫu đào tạo dưới dạng các giá trị được phân tách bằng dấu phẩy. Có 2 cột trong đó, tương ứng với chỉ mục lớp (1 và 2) và văn bản đánh giá. Các văn bản đánh giá được thoát bằng cách sử dụng dấu ngoặc kép (") và bất kỳ dấu ngoặc kép bên trong nào được thoát bằng 2 dấu ngoặc kép (""). Các dòng mới được thoát bằng dấu gạch chéo ngược theo sau ký tự "n", đó là " ".

Trang chủ : https://course.fast.ai/datasets
Mã nguồn : tfds.text.YelpPolarityReviews
Phiên bản :
- 0.2.0 (mặc định): Không có ghi chú phát hành.
Kích thước tải xuống : 158.67 MiB
Kích thước tập dữ liệu : 435.14 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'test'`	38.000
`'train'`	560.000

Cấu trúc tính năng :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})

Tài liệu tính năng :

Tính năng	Lớp	Dtype
	Tính năngDict
nhãn mác	LớpNhãn	int64
chữ	Chữ	sợi dây

Các khóa được giám sát (Xem as_supervised doc ): ('text', 'label')
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}

yelp_polarity_reviews Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

yelp_polarity_reviews