ag_news_subset

  • الوصف :

AG عبارة عن مجموعة من أكثر من مليون مقال إخباري. تم جمع المقالات الإخبارية من أكثر من 2000 مصدر إخباري بواسطة ComeToMyHead في أكثر من عام من النشاط. ComeToMyHead هو محرك بحث عن الأخبار الأكاديمية تم تشغيله منذ يوليو 2004. يتم توفير مجموعة البيانات من قبل المجتمع الأكاديمي لأغراض البحث في استخراج البيانات (التجميع ، التصنيف ، إلخ) ، استرجاع المعلومات (الترتيب ، البحث ، إلخ) ، xml ، ضغط البيانات وتدفق البيانات وأي نشاط غير تجاري آخر. لمزيد من المعلومات ، يرجى الرجوع إلى الرابط http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

تم إنشاء مجموعة بيانات تصنيف موضوعات أخبار AG بواسطة Xiang Zhang (xiang.zhang@nyu.edu) من مجموعة البيانات أعلاه. يتم استخدامه كمعيار لتصنيف النص في الورقة التالية: Xiang Zhang ، Junbo Zhao ، Yann LeCun. الشبكات التلافيفية على مستوى الأحرف لتصنيف النص. التطورات في أنظمة معالجة المعلومات العصبية 28 (NIPS 2015).

يتم إنشاء مجموعة بيانات تصنيف موضوعات الأخبار الخاصة بـ AG باختيار 4 فئات أكبر من المجموعة الأصلية. يحتوي كل فصل على 30000 عينة تدريب و 1900 عينة اختبار. العدد الإجمالي لعينات التدريب 120000 و 7600 اختبار.

انشق، مزق أمثلة
'test' 7600
'train' 120000
  • هيكل الميزة :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
وصف نص سلسلة
ضع الكلمة المناسبة ClassLabel int64
لقب نص سلسلة
  • الاقتباس :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}