- توضیحات :
مجموعه داده جدیدی از 7787 سؤال علمی چندگزینه ای واقعی در سطح پایه مدرسه، که برای تشویق به تحقیق در پاسخگویی پیشرفته به سؤالات جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم میشود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم همروی کلمه به اشتباه پاسخ داده شده است. ما همچنین مجموعهای از بیش از 14 میلیون جمله علمی مرتبط با این کار و پیادهسازی سه مدل پایه عصبی را برای این مجموعه داده گنجاندهایم. ما ARC را به عنوان یک چالش برای جامعه مطرح می کنیم.
صفحه اصلی : https://allenai.org/data/arc
کد منبع :
tfds.datasets.ai2_arc.Builder
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
649.30 MiB
ذخیره خودکار ( اسناد ): بله
ساختار ویژگی :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
کلید پاسخ | ClassLabel | int64 | ||
انتخاب ها | توالی | |||
انتخاب/برچسب | ClassLabel | int64 | ||
انتخاب ها/متن | متن | رشته | ||
شناسه | متن | رشته | ||
سوال | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
ai2_arc/ARC-Challenge (پیکربندی پیش فرض)
توضیحات پیکربندی : مجموعه چالشی شامل 2590 سوال "سخت" (آنهایی که هم روش بازیابی و هم اتفاق نمی توانند به درستی به آنها پاسخ دهند)
اندازه مجموعه داده :
939.91 KiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1172 |
'train' | 1119 |
'validation' | 299 |
- مثالها ( tfds.as_dataframe ):
ai2_arc/ARC-Easy
توضیحات پیکربندی : مجموعه ای آسان از 5197 سوال برای چالش ARC.
حجم مجموعه داده :
1.63 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2,376 |
'train' | 2251 |
'validation' | 570 |
- مثالها ( tfds.as_dataframe ):