ag_news_subset

বর্ণনা :

AG হল 1 মিলিয়নেরও বেশি সংবাদ নিবন্ধের একটি সংগ্রহ। 1 বছরেরও বেশি কার্যকলাপে ComeToMyHead দ্বারা 2000 টিরও বেশি সংবাদ উত্স থেকে সংবাদ নিবন্ধগুলি সংগ্রহ করা হয়েছে৷ ComeToMyHead হল একটি একাডেমিক নিউজ সার্চ ইঞ্জিন যা জুলাই, 2004 থেকে চলছে। ডেটাসেটটি একাডেমিক কমিউনিটি দ্বারা ডেটা মাইনিং (ক্লাস্টারিং, শ্রেণীবিভাগ, ইত্যাদি), তথ্য পুনরুদ্ধার (র্যাঙ্কিং, অনুসন্ধান, ইত্যাদি), xml, গবেষণার উদ্দেশ্যে প্রদান করা হয়। ডেটা কম্প্রেশন, ডেটা স্ট্রিমিং এবং অন্য কোনো অ-বাণিজ্যিক কার্যকলাপ। আরও তথ্যের জন্য, অনুগ্রহ করে http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html লিঙ্কটি দেখুন।

AG-এর সংবাদ বিষয়ের শ্রেণিবিন্যাস ডেটাসেটটি উপরে দেওয়া ডেটাসেট থেকে জিয়াং ঝাং (xiang.zhang@nyu.edu) দ্বারা তৈরি করা হয়েছে৷ এটি নিম্নলিখিত কাগজে পাঠ্য শ্রেণিবিন্যাসের মানদণ্ড হিসাবে ব্যবহৃত হয়: জিয়াং ঝাং, জুনবো ঝাও, ইয়ান লেকুন। টেক্সট শ্রেণীবিভাগের জন্য অক্ষর-স্তরের কনভোলিউশনাল নেটওয়ার্ক। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি 28 (NIPS 2015)।

AG-এর সংবাদ বিষয়ের শ্রেণিবিন্যাস ডেটাসেটটি মূল কর্পাস থেকে 4টি বৃহত্তম শ্রেণী বেছে নিয়ে তৈরি করা হয়েছে। প্রতিটি ক্লাসে 30,000টি প্রশিক্ষণের নমুনা এবং 1,900টি পরীক্ষার নমুনা রয়েছে। প্রশিক্ষণ নমুনার মোট সংখ্যা 120,000 এবং পরীক্ষা 7,600।

অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন
হোমপেজ : https://arxiv.org/abs/1509.01626
সোর্স কোড : tfds.datasets.ag_news_subset.Builder
সংস্করণ :
- 1.0.0 (ডিফল্ট): কোনো রিলিজ নোট নেই।
ডাউনলোড সাইজ : 11.24 MiB
ডেটাসেটের আকার : 35.79 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :

বিভক্ত	উদাহরণ
`'test'`	৭,৬০০
`'train'`	120,000

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	ডিটাইপ
	ফিচারসডিক্ট
বর্ণনা	পাঠ্য	স্ট্রিং
লেবেল	ক্লাসলেবেল	int64
শিরোনাম	পাঠ্য	স্ট্রিং

তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): ('description', 'label')
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদাহরণ ( tfds.as_dataframe ):

উদ্ধৃতি :

@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}