ag_news_subset

  • Açıklama :

AG, 1 milyondan fazla haber makalesinden oluşan bir koleksiyondur. Haber makaleleri, ComeToMyHead tarafından 1 yılı aşkın süredir 2000'den fazla haber kaynağından derlenmiştir. ComeToMyHead, Temmuz 2004'ten beri çalışan bir akademik haber arama motorudur. Veri seti, akademik topluluk tarafından veri madenciliği (kümeleme, sınıflandırma vb.), bilgi alma (sıralama, arama vb.), xml, veri sıkıştırma, veri akışı ve diğer ticari olmayan faaliyetler. Daha fazla bilgi için lütfen http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html linkine bakınız.

AG'nin haber konusu sınıflandırma veri seti, yukarıdaki veri setinden Xiang Zhang (xiang.zhang@nyu.edu) tarafından oluşturulmuştur. Aşağıdaki makalede bir metin sınıflandırma ölçütü olarak kullanılmıştır: Xiang Zhang, Junbo Zhao, Yann LeCun. Metin Sınıflandırması için Karakter Düzeyinde Evrişimli Ağlar. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler 28 (NIPS 2015).

AG'nin haber konusu sınıflandırma veri seti, orijinal külliyattan en büyük 4 sınıf seçilerek oluşturulmuştur. Her sınıf 30.000 eğitim örneği ve 1.900 test örneği içerir. Toplam eğitim örneği sayısı 120.000 ve test 7.600'dür.

Bölmek örnekler
'test' 7.600
'train' 120.000
  • Özellik yapısı :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
tanım Metin sicim
etiket SınıfEtiketi int64
Başlık Metin sicim
  • Alıntı :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}