ag_news_subset

  • Mô tả:

AG là tập hợp của hơn 1 triệu tin bài. Các tin bài được ComeToMyHead tổng hợp từ hơn 2000 nguồn tin tức trong hơn 1 năm hoạt động. ComeToMyHead là một công cụ tìm kiếm tin tức học thuật đã hoạt động từ tháng 7 năm 2004. Tập dữ liệu được cung cấp bởi hiệp hội học thuật cho các mục đích nghiên cứu về khai thác dữ liệu (phân nhóm, phân loại, v.v.), truy xuất thông tin (xếp hạng, tìm kiếm, v.v.), xml, nén dữ liệu, phát trực tuyến dữ liệu và bất kỳ hoạt động phi thương mại nào khác. Để biết thêm thông tin, xin vui lòng tham khảo liên kết http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

Tập dữ liệu phân loại chủ đề tin tức của AG được xây dựng bởi Xiang Zhang (xiang.zhang@nyu.edu) từ tập dữ liệu trên. Nó được sử dụng làm tiêu chuẩn phân loại văn bản trong bài báo sau: Xiang Zhang, Junbo Zhao, Yann LeCun. Mạng lưới hợp lệ cấp ký tự để phân loại văn bản. Những tiến bộ trong hệ thống xử lý thông tin thần kinh 28 (NIPS 2015).

Tập dữ liệu phân loại chủ đề tin tức của AG được xây dựng bằng cách chọn 4 lớp lớn nhất từ ​​kho ngữ liệu gốc. Mỗi lớp chứa 30.000 mẫu đào tạo và 1.900 mẫu thử nghiệm. Tổng số mẫu huấn luyện là 120.000 và thử nghiệm 7.600.

Tách ra Các ví dụ
'test' 7.600
'train' 120.000
  • Các tính năng:
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
  • Trích dẫn:
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}