- תיאור :
מערך נתונים חדש של 7,787 שאלות מדעיות מרובות-ברירות ברמת בית ספר אמיתית, שהורכב כדי לעודד מחקר במענה מתקדם על שאלות. מערך הנתונים מחולק ל-Challenge Set ו-Easy Set, כאשר הראשון מכיל רק שאלות שתשובות לא נכונות הן על ידי אלגוריתם מבוסס שליפה והן אלגוריתם של הופעת מילים. אנו כוללים גם קורפוס של למעלה מ-14 מיליון משפטים מדעיים הרלוונטיים למשימה, ויישום של שלושה מודלים בסיסיים עצביים עבור מערך הנתונים הזה. אנו מציבים את ARC כאתגר לקהילה.
בהשוואה למערך הנתונים המקורי, זה מוסיף משפטי הקשר שהושגו באמצעות אחזור מידע באותו אופן כמו UnifiedQA (ראה: https://arxiv.org/abs/2005.00700 ).
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://allenai.org/data/arc
קוד מקור :
tfds.datasets.ai2_arc_with_ir.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
3.68 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
מבנה תכונה :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מקש מענה | ClassLabel | int64 | ||
בחירות | סדר פעולות | |||
בחירות/תווית | ClassLabel | int64 | ||
אפשרויות/טקסט | טֶקסט | חוּט | ||
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
פסקה | טֶקסט | חוּט | ||
שְׁאֵלָה | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir/ARC-Challenge-IR (תצורת ברירת המחדל)
תיאור תצורה : ערכת אתגר של 2590 שאלות "קשות" (אלה שגם שיטת אחזור וגם שיטת התרחשות משותפת לא מצליחה לענות עליהן כהלכה)
גודל ערכת נתונים :
3.76 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,172 |
'train' | 1,119 |
'validation' | 299 |
- דוגמאות ( tfds.as_dataframe ):
ai2_arc_with_ir/ARC-Easy-IR
תיאור תצורה : סט קל של 5197 שאלות לאתגר ARC.
גודל ערכת נתונים :
7.49 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,376 |
'train' | 2,251 |
'validation' | 570 |
- דוגמאות ( tfds.as_dataframe ):