ai2_arc

  • توضیحات :

مجموعه داده جدیدی از 7787 سؤال علمی چندگزینه ای واقعی در سطح پایه مدرسه، که برای تشویق به تحقیق در پاسخگویی پیشرفته به سؤالات جمع آوری شده است. مجموعه داده به یک مجموعه چالش و یک مجموعه آسان تقسیم می‌شود، که در آن اولی فقط شامل سؤالاتی است که توسط الگوریتم مبتنی بر بازیابی و الگوریتم هم‌روی کلمه به اشتباه پاسخ داده شده است. ما همچنین مجموعه‌ای از بیش از 14 میلیون جمله علمی مرتبط با این کار و پیاده‌سازی سه مدل پایه عصبی را برای این مجموعه داده گنجانده‌ایم. ما ARC را به عنوان یک چالش برای جامعه مطرح می کنیم.

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
        'text': Text(shape=(), dtype=string),
    }),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
کلید پاسخ ClassLabel int64
انتخاب ها توالی
انتخاب/برچسب ClassLabel int64
انتخاب ها/متن متن رشته
شناسه متن رشته
سوال متن رشته
@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}

ai2_arc/ARC-Challenge (پیکربندی پیش فرض)

  • توضیحات پیکربندی : مجموعه چالشی شامل 2590 سوال "سخت" (آنهایی که هم روش بازیابی و هم اتفاق نمی توانند به درستی به آنها پاسخ دهند)

  • اندازه مجموعه داده : 939.91 KiB

  • تقسیم ها :

شکاف مثال ها
'test' 1172
'train' 1119
'validation' 299

ai2_arc/ARC-Easy

  • توضیحات پیکربندی : مجموعه ای آسان از 5197 سوال برای چالش ARC.

  • حجم مجموعه داده : 1.63 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 2,376
'train' 2251
'validation' 570