- বর্ণনা :
7,787 প্রকৃত গ্রেড-স্কুল স্তরের একটি নতুন ডেটাসেট, বহুনির্বাচনী বিজ্ঞানের প্রশ্ন, উন্নত প্রশ্ন-উত্তর গবেষণায় উৎসাহিত করার জন্য একত্রিত করা হয়েছে। ডেটাসেটটিকে একটি চ্যালেঞ্জ সেট এবং একটি সহজ সেটে বিভক্ত করা হয়েছে, যেখানে প্রাক্তনটিতে শুধুমাত্র একটি পুনরুদ্ধার-ভিত্তিক অ্যালগরিদম এবং একটি শব্দ সহ-ঘটনা অ্যালগরিদম উভয়ের দ্বারা ভুল উত্তর দেওয়া প্রশ্ন রয়েছে৷ আমরা টাস্কের সাথে প্রাসঙ্গিক 14 মিলিয়নেরও বেশি বিজ্ঞান বাক্যের একটি কর্পাস এবং এই ডেটাসেটের জন্য তিনটি নিউরাল বেসলাইন মডেলের একটি বাস্তবায়ন অন্তর্ভুক্ত করছি। আমরা ARC-কে সম্প্রদায়ের কাছে একটি চ্যালেঞ্জ হিসেবে তুলে ধরছি।
মূল ডেটাসেটের তুলনায়, এটি ইউনিফাইডকিউএর মতো একইভাবে তথ্য পুনরুদ্ধারের মাধ্যমে প্রাপ্ত প্রসঙ্গ বাক্য যোগ করে (দেখুন: https://arxiv.org/abs/2005.00700 )।
হোমপেজ : https://allenai.org/data/arc
সোর্স কোড :
tfds.datasets.ai2_arc_with_ir.Builder
সংস্করণ :
-
1.0.0
(ডিফল্ট): কোনো রিলিজ নোট নেই।
-
ডাউনলোড সাইজ :
3.68 MiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বৈশিষ্ট্য গঠন :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
---|---|---|---|---|
ফিচারসডিক্ট | ||||
উত্তরের চাবিকাঠি | ক্লাসলেবেল | int64 | ||
পছন্দ | ক্রম | |||
পছন্দ/লেবেল | ক্লাসলেবেল | int64 | ||
পছন্দ/পাঠ্য | পাঠ্য | স্ট্রিং | ||
আইডি | পাঠ্য | স্ট্রিং | ||
অনুচ্ছেদ | পাঠ্য | স্ট্রিং | ||
প্রশ্ন | পাঠ্য | স্ট্রিং |
তত্ত্বাবধান করা কী (দেখুন
as_supervised
doc ):None
চিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir/ARC-চ্যালেঞ্জ-IR (ডিফল্ট কনফিগারেশন)
কনফিগারেশনের বিবরণ : 2590টি "কঠিন" প্রশ্নের চ্যালেঞ্জ সেট (যেগুলি পুনরুদ্ধার এবং একটি সহ-ঘটনা পদ্ধতি উভয়ই সঠিকভাবে উত্তর দিতে ব্যর্থ হয়)
ডেটাসেটের আকার :
3.76 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | 1,172 |
'train' | 1,119 |
'validation' | 299 |
- উদাহরণ ( tfds.as_dataframe ):
ai2_arc_with_ir/ARC-Easy-IR
কনফিগারেশনের বিবরণ : ARC চ্যালেঞ্জের জন্য 5197 টি প্রশ্নের সহজ সেট।
ডেটাসেটের আকার :
7.49 MiB
বিভাজন :
বিভক্ত | উদাহরণ |
---|---|
'test' | ২,৩৭৬ |
'train' | 2,251 |
'validation' | 570 |
- উদাহরণ ( tfds.as_dataframe ):