زیرمجموعه ag_news

  • توضیحات :

AG مجموعه ای از بیش از 1 میلیون مقاله خبری است. مقالات خبری از بیش از 2000 منبع خبری توسط ComeToMyHead در بیش از 1 سال فعالیت جمع آوری شده است. ComeToMyHead یک موتور جستجوی اخبار دانشگاهی است که از جولای 2004 در حال اجرا است. مجموعه داده توسط جامعه دانشگاهی برای اهداف تحقیقاتی در داده کاوی (خوشه بندی، طبقه بندی و غیره)، بازیابی اطلاعات (رتبه بندی، جستجو و غیره)، xml، ارائه شده است. فشرده سازی داده، جریان داده و هر فعالیت غیر تجاری دیگر. برای اطلاعات بیشتر به لینک http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html مراجعه فرمایید.

مجموعه داده طبقه بندی موضوعات اخبار AG توسط Xiang Zhang (xiang.zhang@nyu.edu) از مجموعه داده بالا ساخته شده است. این به عنوان معیار طبقه بندی متن در مقاله زیر استفاده می شود: Xiang Zhang، Junbo Zhao، Yann LeCun. شبکه های کانولوشن در سطح کاراکتر برای طبقه بندی متن. پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی 28 (NIPS 2015).

مجموعه داده طبقه بندی موضوعات اخبار AG با انتخاب 4 کلاس بزرگ از مجموعه اصلی ساخته شده است. هر کلاس شامل 30000 نمونه آموزشی و 1900 نمونه تست می باشد. تعداد کل نمونه های آموزشی 120000 و تست 7600 می باشد.

شکاف مثال ها
'test' 7600
'train' 120000
  • ساختار ویژگی :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
شرح متن رشته
برچسب ClassLabel int64
عنوان متن رشته
  • نقل قول :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}