- বর্ণনা :
AG হল 1 মিলিয়নেরও বেশি সংবাদ নিবন্ধের একটি সংগ্রহ। 1 বছরেরও বেশি কার্যকলাপে ComeToMyHead দ্বারা 2000 টিরও বেশি সংবাদ উত্স থেকে সংবাদ নিবন্ধগুলি সংগ্রহ করা হয়েছে৷ ComeToMyHead হল একটি একাডেমিক নিউজ সার্চ ইঞ্জিন যা জুলাই, 2004 থেকে চলছে। ডেটাসেটটি একাডেমিক কমিউনিটি দ্বারা ডেটা মাইনিং (ক্লাস্টারিং, শ্রেণীবিভাগ, ইত্যাদি), তথ্য পুনরুদ্ধার (র্যাঙ্কিং, অনুসন্ধান, ইত্যাদি), xml, গবেষণার উদ্দেশ্যে প্রদান করা হয়। ডেটা কম্প্রেশন, ডেটা স্ট্রিমিং এবং অন্য কোনো অ-বাণিজ্যিক কার্যকলাপ। আরও তথ্যের জন্য, অনুগ্রহ করে http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html লিঙ্কটি দেখুন।
AG-এর সংবাদ বিষয়ের শ্রেণিবিন্যাস ডেটাসেটটি উপরে দেওয়া ডেটাসেট থেকে জিয়াং ঝাং (xiang.zhang@nyu.edu) দ্বারা তৈরি করা হয়েছে৷ এটি নিম্নলিখিত কাগজে পাঠ্য শ্রেণিবিন্যাসের মানদণ্ড হিসাবে ব্যবহৃত হয়: জিয়াং ঝাং, জুনবো ঝাও, ইয়ান লেকুন। টেক্সট শ্রেণীবিভাগের জন্য অক্ষর-স্তরের কনভোলিউশনাল নেটওয়ার্ক। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি 28 (NIPS 2015)।
AG-এর সংবাদ বিষয়ের শ্রেণিবিন্যাস ডেটাসেটটি মূল কর্পাস থেকে 4টি বৃহত্তম শ্রেণী বেছে নিয়ে তৈরি করা হয়েছে। প্রতিটি ক্লাসে 30,000টি প্রশিক্ষণের নমুনা এবং 1,900টি পরীক্ষার নমুনা রয়েছে। প্রশিক্ষণ নমুনার মোট সংখ্যা 120,000 এবং পরীক্ষা 7,600।
অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন
হোমপেজ : https://arxiv.org/abs/1509.01626
সোর্স কোড :
tfds.datasets.ag_news_subset.Builderসংস্করণ :
-
1.0.0(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
11.24 MiBডেটাসেটের আকার :
35.79 MiBস্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'test' | ৭,৬০০ |
'train' | 120,000 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
| বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
|---|---|---|---|---|
| ফিচারসডিক্ট | ||||
| বর্ণনা | পাঠ্য | স্ট্রিং | ||
| লেবেল | ক্লাসলেবেল | int64 | ||
| শিরোনাম | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_superviseddoc ):('description', 'label')চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):
- উদ্ধৃতি :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}