ai2_arc_with_ir

תיאור :

מערך נתונים חדש של 7,787 שאלות מדעיות מרובות-ברירות ברמת בית ספר אמיתית, שהורכב כדי לעודד מחקר במענה מתקדם על שאלות. מערך הנתונים מחולק ל-Challenge Set ו-Easy Set, כאשר הראשון מכיל רק שאלות שתשובות לא נכונות הן על ידי אלגוריתם מבוסס שליפה והן אלגוריתם של הופעת מילים. אנו כוללים גם קורפוס של למעלה מ-14 מיליון משפטים מדעיים הרלוונטיים למשימה, ויישום של שלושה מודלים בסיסיים עצביים עבור מערך הנתונים הזה. אנו מציבים את ARC כאתגר לקהילה.

בהשוואה למערך הנתונים המקורי, זה מוסיף משפטי הקשר שהושגו באמצעות אחזור מידע באותו אופן כמו UnifiedQA (ראה: https://arxiv.org/abs/2005.00700 ).

תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://allenai.org/data/arc
קוד מקור : tfds.datasets.ai2_arc_with_ir.Builder
גרסאות :
- 1.0.0 (ברירת מחדל): אין הערות שחרור.
גודל הורדה : 3.68 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
מבנה תכונה :

FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'choices': Sequence({
        'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
        'text': Text(shape=(), dtype=string),
    }),
    'id': Text(shape=(), dtype=string),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})

תיעוד תכונה :

תכונה	מעמד	Dtype
	FeaturesDict
מקש מענה	ClassLabel	int64
בחירות	סדר פעולות
בחירות/תווית	ClassLabel	int64
אפשרויות/טקסט	טֶקסט	חוּט
תְעוּדַת זֶהוּת	טֶקסט	חוּט
פסקה	טֶקסט	חוּט
שְׁאֵלָה	טֶקסט	חוּט

מפתחות בפיקוח (ראה as_supervised doc ): None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :

@article{allenai:arc,
      author    = {Peter Clark  and Isaac Cowhey and Oren Etzioni and Tushar Khot and
                    Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
      title     = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
      journal   = {arXiv:1803.05457v1},
      year      = {2018},
}
@article{2020unifiedqa,
    title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
    author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
    journal={arXiv preprint},
    year={2020}
}

ai2_arc_with_ir/ARC-Challenge-IR (תצורת ברירת המחדל)

תיאור תצורה : ערכת אתגר של 2590 שאלות "קשות" (אלה שגם שיטת אחזור וגם שיטת התרחשות משותפת לא מצליחה לענות עליהן כהלכה)
גודל ערכת נתונים : 3.76 MiB
פיצולים :

לְפַצֵל	דוגמאות
`'test'`	1,172
`'train'`	1,119
`'validation'`	299

דוגמאות ( tfds.as_dataframe ):

ai2_arc_with_ir/ARC-Easy-IR

תיאור תצורה : סט קל של 5197 שאלות לאתגר ARC.
גודל ערכת נתונים : 7.49 MiB
פיצולים :

לְפַצֵל	דוגמאות
`'test'`	2,376
`'train'`	2,251
`'validation'`	570

דוגמאות ( tfds.as_dataframe ):

ai2_arc_with_ir קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

ai2_arc_with_ir/ARC-Challenge-IR (תצורת ברירת המחדל)

ai2_arc_with_ir/ARC-Easy-IR

ai2_arc_with_ir