ag_news_subset

  • Deskripsi :

AG adalah kumpulan lebih dari 1 juta artikel berita. Artikel berita telah dikumpulkan dari lebih dari 2000 sumber berita oleh ComeToMyHead selama lebih dari 1 tahun kegiatan. ComeToMyHead adalah mesin pencari berita akademik yang telah berjalan sejak Juli 2004. Dataset disediakan oleh komunitas akademik untuk tujuan penelitian dalam penambangan data (pengelompokan, klasifikasi, dll), pencarian informasi (peringkat, pencarian, dll), xml, kompresi data, streaming data, dan aktivitas non-komersial lainnya. Untuk informasi lebih lanjut, silakan merujuk ke tautan http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

Kumpulan data klasifikasi topik berita AG dibangun oleh Xiang Zhang (xiang.zhang@nyu.edu) dari kumpulan data di atas. Ini digunakan sebagai tolok ukur klasifikasi teks dalam makalah berikut: Xiang Zhang, Junbo Zhao, Yann LeCun. Jaringan Konvolusional Tingkat Karakter untuk Klasifikasi Teks. Kemajuan dalam Sistem Pemrosesan Informasi Neural 28 (NIPS 2015).

Dataset klasifikasi topik berita AG dibangun dengan memilih 4 kelas terbesar dari korpus aslinya. Setiap kelas berisi 30.000 sampel pelatihan dan 1.900 sampel pengujian. Jumlah sampel pelatihan adalah 120.000 dan pengujian 7.600.

Membelah Contoh
'test' 7.600
'train' 120.000
  • Struktur fitur :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
keterangan Teks rangkaian
label LabelKelas int64
judul Teks rangkaian
  • Kutipan :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}