unified_qa

  • תיאור :

אמת המידה של UnifiedQA מורכבת מ-20 מערכי נתונים של תשובות לשאלות עיקריות (לכל אחת עשויות להיות גרסאות מרובות) המכוונות לפורמטים שונים כמו גם לתופעות לשוניות מורכבות שונות. מערכי נתונים אלה מקובצים למספר פורמטים/קטגוריות, כולל: QA מיצוי, QA אבסטרקטי, QA רב-ברירה וכן QA כן/לא. בנוסף, ערכות ניגודיות משמשות עבור מספר מערכי נתונים (מסומנים ב"ערכות ניגודיות "). ערכות הערכה אלו הן הפרעות שנוצרו על ידי מומחים החורגות מהדפוסים הנפוצים במערך הנתונים המקורי. עבור מספר מערכי נתונים שאינם מגיעים עם פסקאות ראיות, כלולות שתי גרסאות: אחת שבה מערכי הנתונים משמשים כפי שהם ואחרת המשתמשת בפסקאות שנשלפו באמצעות מערכת אחזור מידע כראיות נוספות, המסומנות בתגיות "_ir".

מידע נוסף ניתן למצוא בכתובת: https://github.com/allenai/unifiedqa

FeaturesDict({
    'input': string,
    'output': string,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
קֶלֶט מוֹתֵחַ חוּט
תְפוּקָה מוֹתֵחַ חוּט

unified_qa/ai2_science_elementary (תצורת ברירת מחדל)

  • תיאור תצורה : מערך השאלות המדע של AI2 מורכב משאלות המשמשות בהערכות תלמידים בארצות הברית על פני רמות כיתות בית ספר יסודי וחטיבת ביניים. כל שאלה היא פורמט רב-ברירה בעל 4 כיוונים ועשויה לכלול אלמנט דיאגרמה או לא. ערכה זו מורכבת משאלות המשמשות לכיתות בית ספר יסודי.

  • גודל הורדה : 345.59 KiB

  • גודל מערך נתונים : 390.02 KiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 542
'train' 623
'validation' 123
  • ציטוט :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ai2_science_middle

  • תיאור תצורה : מערך השאלות המדע של AI2 מורכב משאלות המשמשות בהערכות תלמידים בארצות הברית על פני רמות כיתות בית ספר יסודי וחטיבת ביניים. כל שאלה היא פורמט רב-ברירה בעל 4 כיוונים ועשויה לכלול אלמנט דיאגרמה או לא. ערכה זו מורכבת משאלות המשמשות לכיתות חטיבת הביניים.

  • גודל הורדה : 428.41 KiB

  • גודל מערך נתונים : 477.40 KiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 679
'train' 605
'validation' 125
  • ציטוט :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ambigqa

  • תיאור תצורה : AmbigQA היא משימת מענה לשאלות בדומיין פתוח הכוללת מציאת כל תשובה סבירה, ולאחר מכן שכתוב השאלה עבור כל אחת מהן כדי לפתור את האי בהירות.

  • גודל הורדה : 2.27 MiB

  • גודל מערך נתונים : 3.04 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 19,806
'validation' 5,674
  • ציטוט :
@inproceedings{min-etal-2020-ambigqa,
    title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
    author = "Min, Sewon  and
      Michael, Julian  and
      Hajishirzi, Hannaneh  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.466",
    doi = "10.18653/v1/2020.emnlp-main.466",
    pages = "5783--5797",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy

  • תיאור תצורה : מערך נתונים זה מורכב משאלות מדעיות אמיתיות ברמת בית הספר היסודי, רב-ברירה, שנאספו כדי לעודד מחקר במענה מתקדם על שאלות. מערך הנתונים מחולק ל-Challenge Set ו-Easy Set, כאשר הראשון מכיל רק שאלות שתשובות לא נכונות הן על ידי אלגוריתם מבוסס שליפה והן אלגוריתם של הופעת מילים. סט זה מורכב משאלות "קלות".

  • גודל הורדה : 1.24 MiB

  • גודל מערך נתונים : 1.42 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,376
'train' 2,251
'validation' 570
  • ציטוט :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_dev

  • תיאור תצורה : מערך נתונים זה מורכב משאלות מדעיות אמיתיות ברמת בית הספר היסודי, רב-ברירה, שנאספו כדי לעודד מחקר במענה מתקדם על שאלות. מערך הנתונים מחולק ל-Challenge Set ו-Easy Set, כאשר הראשון מכיל רק שאלות שתשובות לא נכונות הן על ידי אלגוריתם מבוסס שליפה והן אלגוריתם של הופעת מילים. סט זה מורכב משאלות "קלות".

  • גודל הורדה : 1.24 MiB

  • גודל מערך נתונים : 1.42 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,376
'train' 2,251
'validation' 570
  • ציטוט :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir

  • תיאור תצורה : מערך נתונים זה מורכב משאלות מדעיות אמיתיות ברמת בית הספר היסודי, רב-ברירה, שנאספו כדי לעודד מחקר במענה מתקדם על שאלות. מערך הנתונים מחולק ל-Challenge Set ו-Easy Set, כאשר הראשון מכיל רק שאלות שתשובות לא נכונות הן על ידי אלגוריתם מבוסס שליפה והן אלגוריתם של הופעת מילים. סט זה מורכב משאלות "קלות". גרסה זו כוללת פסקאות שנשלפו באמצעות מערכת אחזור מידע כראיה נוספת.

  • גודל הורדה : 7.00 MiB

  • גודל מערך נתונים : 7.17 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,376
'train' 2,251
'validation' 570
  • ציטוט :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir_dev

  • תיאור תצורה : מערך נתונים זה מורכב משאלות מדעיות אמיתיות ברמת בית הספר היסודי, רב-ברירה, שנאספו כדי לעודד מחקר במענה מתקדם על שאלות. מערך הנתונים מחולק ל-Challenge Set ו-Easy Set, כאשר הראשון מכיל רק שאלות שתשובות לא נכונות הן על ידי אלגוריתם מבוסס שליפה והן אלגוריתם של הופעת מילים. סט זה מורכב משאלות "קלות". גרסה זו כוללת פסקאות שנשלפו באמצעות מערכת אחזור מידע כראיה נוספת.

  • גודל הורדה : 7.00 MiB

  • גודל מערך נתונים : 7.17 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,376
'train' 2,251
'validation' 570
  • ציטוט :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard

  • תיאור תצורה : מערך נתונים זה מורכב משאלות מדעיות אמיתיות ברמת בית הספר היסודי, רב-ברירה, שנאספו כדי לעודד מחקר במענה מתקדם על שאלות. מערך הנתונים מחולק ל-Challenge Set ו-Easy Set, כאשר הראשון מכיל רק שאלות שתשובות לא נכונות הן על ידי אלגוריתם מבוסס שליפה והן אלגוריתם של הופעת מילים. סט זה מורכב משאלות "קשות".

  • גודל הורדה : 758.03 KiB

  • גודל מערך נתונים : 848.28 KiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,172
'train' 1,119
'validation' 299
  • ציטוט :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_dev

  • תיאור תצורה : מערך נתונים זה מורכב משאלות מדעיות אמיתיות ברמת בית הספר היסודי, רב-ברירה, שנאספו כדי לעודד מחקר במענה מתקדם על שאלות. מערך הנתונים מחולק ל-Challenge Set ו-Easy Set, כאשר הראשון מכיל רק שאלות שתשובות לא נכונות הן על ידי אלגוריתם מבוסס שליפה והן אלגוריתם של הופעת מילים. סט זה מורכב משאלות "קשות".

  • גודל הורדה : 758.03 KiB

  • גודל מערך נתונים : 848.28 KiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,172
'train' 1,119
'validation' 299
  • ציטוט :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir

  • תיאור תצורה : מערך נתונים זה מורכב משאלות מדעיות אמיתיות ברמת בית הספר היסודי, רב-ברירה, שנאספו כדי לעודד מחקר במענה מתקדם על שאלות. מערך הנתונים מחולק ל-Challenge Set ו-Easy Set, כאשר הראשון מכיל רק שאלות שתשובות לא נכונות הן על ידי אלגוריתם מבוסס שליפה והן אלגוריתם של הופעת מילים. סט זה מורכב משאלות "קשות". גרסה זו כוללת פסקאות שנשלפו באמצעות מערכת אחזור מידע כראיה נוספת.

  • גודל הורדה : 3.53 MiB

  • גודל מערך נתונים : 3.62 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,172
'train' 1,119
'validation' 299
  • ציטוט :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_hard_with_ir_dev

  • תיאור תצורה : מערך נתונים זה מורכב משאלות מדעיות אמיתיות ברמת בית הספר היסודי, רב-ברירה, שנאספו כדי לעודד מחקר במענה מתקדם על שאלות. מערך הנתונים מחולק ל-Challenge Set ו-Easy Set, כאשר הראשון מכיל רק שאלות שתשובות לא נכונות הן על ידי אלגוריתם מבוסס שליפה והן אלגוריתם של הופעת מילים. סט זה מורכב משאלות "קשות". גרסה זו כוללת פסקאות שנשלפו באמצעות מערכת אחזור מידע כראיה נוספת.

  • גודל הורדה : 3.53 MiB

  • גודל מערך נתונים : 3.62 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,172
'train' 1,119
'validation' 299
  • ציטוט :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq

  • תיאור תצורה : BoolQ הוא מערך תשובות לשאלות עבור שאלות כן/לא. שאלות אלו מתרחשות באופן טבעי --- הן נוצרות בהגדרות לא מתבקשות ובלתי מוגבלות. כל דוגמה היא שלישייה של (שאלה, קטע, תשובה), עם כותרת העמוד כהקשר נוסף אופציונלי. מערך הסיווג של צמד הטקסט דומה למשימות הסקת הסקת שפה טבעית קיימות.

  • גודל הורדה : 7.77 MiB

  • גודל מערך נתונים : 8.20 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 9,427
'validation' 3,270
  • ציטוט :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/boolq_np

  • תיאור תצורה : BoolQ הוא מערך תשובות לשאלות עבור שאלות כן/לא. שאלות אלו מתרחשות באופן טבעי --- הן נוצרות בהגדרות לא מתבקשות ובלתי מוגבלות. כל דוגמה היא שלישייה של (שאלה, קטע, תשובה), עם כותרת העמוד כהקשר נוסף אופציונלי. מערך הסיווג של צמד הטקסט דומה למשימות הסקת הסקת שפה טבעית קיימות. גרסה זו מוסיפה הפרעות טבעיות לגרסה המקורית.

  • גודל הורדה : 10.80 MiB

  • גודל ערכת נתונים : 11.40 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 9,727
'validation' 7,596
  • ציטוט :
@inproceedings{khashabi-etal-2020-bang,
    title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
    author = "Khashabi, Daniel  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.12",
    doi = "10.18653/v1/2020.emnlp-main.12",
    pages = "163--170",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa

  • תיאור תצורה : CommonsenseQA הוא מערך תשובות לשאלות מרובות-ברירות חדש שדורש סוגים שונים של ידע בריא כדי לחזות את התשובות הנכונות. הוא מכיל שאלות עם תשובה אחת נכונה וארבע תשובות מסיחות דעת.

  • גודל הורדה : 1.79 MiB

  • גודל ערכת נתונים : 2.19 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,140
'train' 9,741
'validation' 1,221
  • ציטוט :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa_test

  • תיאור תצורה : CommonsenseQA הוא מערך תשובות לשאלות מרובות-ברירות חדש שדורש סוגים שונים של ידע בריא כדי לחזות את התשובות הנכונות. הוא מכיל שאלות עם תשובה אחת נכונה וארבע תשובות מסיחות דעת.

  • גודל הורדה : 1.79 MiB

  • גודל ערכת נתונים : 2.19 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,140
'train' 9,741
'validation' 1,221
  • ציטוט :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_boolq

  • תיאור תצורה : BoolQ הוא מערך תשובות לשאלות עבור שאלות כן/לא. שאלות אלו מתרחשות באופן טבעי --- הן נוצרות בהגדרות לא מתבקשות ובלתי מוגבלות. כל דוגמה היא שלישייה של (שאלה, קטע, תשובה), עם כותרת העמוד כהקשר נוסף אופציונלי. מערך הסיווג של צמד הטקסט דומה למשימות הסקת הסקת שפה טבעית קיימות. גרסה זו משתמשת בערכות ניגודיות. ערכות הערכה אלו הן הפרעות שנוצרו על ידי מומחים החורגות מהדפוסים הנפוצים במערך הנתונים המקורי.

  • גודל הורדה : 438.51 KiB

  • גודל מערך נתונים : 462.35 KiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 340
'validation' 340
  • ציטוט :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_drop

  • תיאור תצורה : DROP הוא מדד QA במיקור המונים, שנוצר באופן יריב, שבו מערכת חייבת לפתור הפניות בשאלה, אולי למספר עמדות קלט, ולבצע עליהן פעולות בדידות (כגון הוספה, ספירה או מיון). פעולות אלה דורשות הבנה מקיפה הרבה יותר של התוכן של פסקאות ממה שהיה נחוץ עבור מערכי נתונים קודמים. גרסה זו משתמשת בערכות ניגודיות. ערכות הערכה אלו הן הפרעות שנוצרו על ידי מומחים החורגות מהדפוסים הנפוצים במערך הנתונים המקורי.

  • גודל הורדה : 2.20 MiB

  • גודל מערך נתונים : 2.26 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 947
'validation' 947
  • ציטוט :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_quoref

  • תיאור תצורה : מערך נתונים זה בודק את יכולת החשיבה הבסיסית של מערכות הבנת הנקרא. במבחן טווח בחירה זה המכיל שאלות על פסקאות מויקיפדיה, מערכת חייבת לפתור את ההפניות הקשות לפני בחירת הטווח המתאים בפסקאות למענה על שאלות. גרסה זו משתמשת בערכות ניגודיות. ערכות הערכה אלו הן הפרעות שנוצרו על ידי מומחים החורגות מהדפוסים הנפוצים במערך הנתונים המקורי.

  • גודל הורדה : 2.60 MiB

  • גודל מערך נתונים : 2.65 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 700
'validation' 700
  • ציטוט :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_ropes

  • תיאור תצורה : מערך נתונים זה בודק את יכולתה של מערכת ליישם ידע ממעבר טקסט למצב חדש. מערכת מוצגת קטע רקע המכיל קשר(ים) סיבתי או איכותי (למשל, "מאביקי בעלי חיים מגבירים את יעילות ההפריה בפרחים"), מצב חדשני המשתמש ברקע זה, ושאלות הדורשות חשיבה לגבי השפעות הקשרים בפרחים. קטע הרקע בהקשר של המצב. גרסה זו משתמשת בערכות ניגודיות. ערכות הערכה אלו הן הפרעות שנוצרו על ידי מומחים החורגות מהדפוסים הנפוצים במערך הנתונים המקורי.

  • גודל הורדה : 1.97 MiB

  • גודל מערך נתונים : 2.04 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 974
'validation' 974
  • ציטוט :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/drop

  • תיאור תצורה : DROP הוא מדד QA במיקור המונים, שנוצר באופן יריב, שבו מערכת חייבת לפתור הפניות בשאלה, אולי למספר עמדות קלט, ולבצע עליהן פעולות בדידות (כגון הוספה, ספירה או מיון). פעולות אלה דורשות הבנה מקיפה הרבה יותר של התוכן של פסקאות ממה שהיה נחוץ עבור מערכי נתונים קודמים.

  • גודל הורדה : 105.18 MiB

  • גודל ערכת נתונים: 108.16 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 77,399
'validation' 9,536
  • ציטוט :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest

  • תיאור תצורה : MCTest דורש ממכונות לענות על שאלות הבנת הנקרא מרובות ברירות על סיפורים בדיוניים, תוך התמודדות ישירה עם המטרה ברמה הגבוהה של הבנת מכונה בדומיין פתוח. הבנת הנקרא יכולה לבחון יכולות מתקדמות כמו חשיבה סיבתית והבנת העולם, אך עם זאת, בהיותה רב-ברירה, עדיין מספקת מדד ברור. בהיותו בדיוני, ניתן למצוא את התשובה בדרך כלל רק בסיפור עצמו. הסיפורים והשאלות מוגבלים בקפידה לאלה שילד צעיר יבין, מה שמפחית את הידע העולמי הנדרש למשימה.

  • גודל הורדה : 2.14 MiB

  • גודל ערכת נתונים : 2.20 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,480
'validation' 320
  • ציטוט :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest_corrected_the_separator

  • תיאור תצורה : MCTest דורש ממכונות לענות על שאלות הבנת הנקרא מרובות ברירות על סיפורים בדיוניים, תוך התמודדות ישירה עם המטרה ברמה הגבוהה של הבנת מכונה בדומיין פתוח. הבנת הנקרא יכולה לבחון יכולות מתקדמות כמו חשיבה סיבתית והבנת העולם, אך עם זאת, בהיותה רב-ברירה, עדיין מספקת מדד ברור. בהיותו בדיוני, ניתן למצוא את התשובה בדרך כלל רק בסיפור עצמו. הסיפורים והשאלות מוגבלים בקפידה לאלה שילד צעיר יבין, מה שמפחית את הידע העולמי הנדרש למשימה.

  • גודל הורדה : 2.15 MiB

  • גודל מערך נתונים : 2.21 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,480
'validation' 320
  • ציטוט :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/multirc

  • תיאור תצורה : MultiRC הוא אתגר הבנת הנקרא שבו ניתן לענות על שאלות רק על ידי התחשבות במידע ממספר משפטים. שאלות ותשובות לאתגר זה התבקשו ואומתו באמצעות ניסוי מיקור המונים בן 4 שלבים. מערך הנתונים מכיל שאלות לפסקאות על פני 7 תחומים שונים (מדע בבית ספר יסודי, חדשות, מדריכי טיולים, סיפורים בדיוניים וכו') המביאים גיוון לשוני לטקסטים ולניסוחי השאלות.

  • גודל הורדה : 897.09 KiB

  • גודל מערך נתונים : 918.42 KiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 312
'validation' 312
  • ציטוט :
@inproceedings{khashabi-etal-2018-looking,
    title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
    author = "Khashabi, Daniel  and
      Chaturvedi, Snigdha  and
      Roth, Michael  and
      Upadhyay, Shyam  and
      Roth, Dan",
    booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
    month = jun,
    year = "2018",
    address = "New Orleans, Louisiana",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N18-1023",
    doi = "10.18653/v1/N18-1023",
    pages = "252--262",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa

  • תיאור תצורה : NarrativeQA הוא מערך נתונים בשפה האנגלית של סיפורים ושאלות מתאימות שנועד לבחון את הבנת הנקרא, במיוחד במסמכים ארוכים.

  • גודל הורדה : 308.28 MiB

  • גודל ערכת נתונים: 311.22 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 21,114
'train' 65,494
'validation' 6,922
  • ציטוט :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa_dev

  • תיאור תצורה : NarrativeQA הוא מערך נתונים בשפה האנגלית של סיפורים ושאלות מתאימות שנועד לבחון את הבנת הנקרא, במיוחד במסמכים ארוכים.

  • גודל הורדה : 308.28 MiB

  • גודל ערכת נתונים: 311.22 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 21,114
'train' 65,494
'validation' 6,922
  • ציטוט :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions

  • תיאור תצורה : קורפוס NQ מכיל שאלות ממשתמשים אמיתיים, והוא דורש ממערכות QA לקרוא ולהבין מאמר שלם בוויקיפדיה שאולי יכיל את התשובה לשאלה ואולי לא. הכללת שאלות אמיתיות של משתמשים, והדרישה שהפתרונות צריכים לקרוא עמוד שלם כדי למצוא את התשובה, גורמות ל-NQ להיות משימה מציאותית ומאתגרת יותר ממערכי נתונים קודמים של QA.

  • גודל הורדה : 6.95 MiB

  • גודל ערכת נתונים : 9.88 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 96,075
'validation' 2,295
  • ציטוט :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans

  • תיאור תצורה : קורפוס NQ מכיל שאלות ממשתמשים אמיתיים, והוא דורש ממערכות QA לקרוא ולהבין מאמר שלם בוויקיפדיה שאולי יכיל את התשובה לשאלה ואולי לא. הכללת שאלות אמיתיות של משתמשים, והדרישה שהפתרונות צריכים לקרוא עמוד שלם כדי למצוא את התשובה, גורמות ל-NQ להיות משימה מציאותית ומאתגרת יותר ממערכי נתונים קודמים של QA. גרסה זו מורכבת משאלות בתשובה ישירה.

  • גודל הורדה : 6.82 MiB

  • גודל מערך נתונים : 10.19 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 6,468
'train' 96,676
'validation' 10,693
  • ציטוט :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans_test

  • תיאור תצורה : קורפוס NQ מכיל שאלות ממשתמשים אמיתיים, והוא דורש ממערכות QA לקרוא ולהבין מאמר שלם בוויקיפדיה שאולי יכיל את התשובה לשאלה ואולי לא. הכללת שאלות אמיתיות של משתמשים, והדרישה שהפתרונות צריכים לקרוא עמוד שלם כדי למצוא את התשובה, גורמות ל-NQ להיות משימה מציאותית ומאתגרת יותר ממערכי נתונים קודמים של QA. גרסה זו מורכבת משאלות בתשובה ישירה.

  • גודל הורדה : 6.82 MiB

  • גודל מערך נתונים : 10.19 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 6,468
'train' 96,676
'validation' 10,693
  • ציטוט :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_with_dpr_para

  • תיאור תצורה : קורפוס NQ מכיל שאלות ממשתמשים אמיתיים, והוא דורש ממערכות QA לקרוא ולהבין מאמר שלם בוויקיפדיה שאולי יכיל את התשובה לשאלה ואולי לא. הכללת שאלות אמיתיות של משתמשים, והדרישה שהפתרונות צריכים לקרוא עמוד שלם כדי למצוא את התשובה, גורמות ל-NQ להיות משימה מציאותית ומאתגרת יותר ממערכי נתונים קודמים של QA. גרסה זו כוללת פסקאות נוספות (שהושגו באמצעות מנוע האחזור DPR) כדי להגדיל כל שאלה.

  • גודל הורדה : 319.22 MiB

  • גודל ערכת נתונים: 322.91 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'train' 96,676
'validation' 10,693
  • ציטוט :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_with_dpr_para_test

  • תיאור תצורה : קורפוס NQ מכיל שאלות ממשתמשים אמיתיים, והוא דורש ממערכות QA לקרוא ולהבין מאמר שלם בוויקיפדיה שאולי יכיל את התשובה לשאלה ואולי לא. הכללת שאלות אמיתיות של משתמשים, והדרישה שהפתרונות צריכים לקרוא עמוד שלם כדי למצוא את התשובה, גורמות ל-NQ להיות משימה מציאותית ומאתגרת יותר ממערכי נתונים קודמים של QA. גרסה זו כוללת פסקאות נוספות (שהושגו באמצעות מנוע האחזור DPR) כדי להגדיל כל שאלה.

  • גודל הורדה : 306.94 MiB

  • גודל ערכת נתונים: 310.48 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 6,468
'train' 96,676
  • ציטוט :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/newsqa

  • תיאור תצורה : NewsQA הוא מערך נתונים מאתגר של הבנת מכונה של צמדי שאלות ותשובות שנוצרו על ידי אדם. עובדי ההמונים מספקים שאלות ותשובות המבוססות על סט מאמרי חדשות מ-CNN, עם תשובות המורכבות מטווחי טקסט מהמאמרים המקבילים.

  • גודל הורדה : 283.33 MiB

  • גודל ערכת נתונים: 285.94 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'train' 75,882
'validation' 4,309
  • ציטוט :
@inproceedings{trischler-etal-2017-newsqa,
    title = "{N}ews{QA}: A Machine Comprehension Dataset",
    author = "Trischler, Adam  and
      Wang, Tong  and
      Yuan, Xingdi  and
      Harris, Justin  and
      Sordoni, Alessandro  and
      Bachman, Philip  and
      Suleman, Kaheer",
    booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-2623",
    doi = "10.18653/v1/W17-2623",
    pages = "191--200",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa

  • תיאור תצורה : OpenBookQA שואפת לקדם מחקר במענה מתקדם לשאלות, תוך בדיקה מעמיקה יותר של הנושא (עם עובדות בולטות המסוכמות כספר פתוח, מסופק גם עם מערך הנתונים) וגם של השפה שבה הוא מתבטא. מכיל שאלות הדורשות חשיבה רב-שלבית, שימוש בידע נוסף נפוץ והגיוני והבנת טקסט עשיר. OpenBookQA הוא סוג חדש של מערך נתונים לתשובות לשאלות שעוצב לפי בחינות ספר פתוח להערכת הבנה אנושית של נושא.

  • גודל הורדה : 942.34 KiB

  • גודל מערך נתונים : 1.11 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 500
'train' 4,957
'validation' 500
  • ציטוט :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_dev

  • תיאור תצורה : OpenBookQA שואפת לקדם מחקר במענה מתקדם לשאלות, תוך בדיקה מעמיקה יותר של הנושא (עם עובדות בולטות המסוכמות כספר פתוח, מסופק גם עם מערך הנתונים) וגם של השפה שבה הוא מתבטא. מכיל שאלות הדורשות חשיבה רב-שלבית, שימוש בידע נוסף נפוץ והגיוני והבנת טקסט עשיר. OpenBookQA הוא סוג חדש של מערך נתונים לתשובות לשאלות שעוצב לפי בחינות ספר פתוח להערכת הבנה אנושית של נושא.

  • גודל הורדה : 942.34 KiB

  • גודל מערך נתונים : 1.11 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 500
'train' 4,957
'validation' 500
  • ציטוט :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir

  • תיאור תצורה : OpenBookQA שואפת לקדם מחקר במענה מתקדם לשאלות, תוך בדיקה מעמיקה יותר של הנושא (עם עובדות בולטות המסוכמות כספר פתוח, מסופק גם עם מערך הנתונים) וגם של השפה שבה הוא מתבטא. מכיל שאלות הדורשות חשיבה רב-שלבית, שימוש בידע נוסף נפוץ והגיוני והבנת טקסט עשיר. OpenBookQA הוא סוג חדש של מערך נתונים לתשובות לשאלות שעוצב לפי בחינות ספר פתוח להערכת הבנה אנושית של נושא. גרסה זו כוללת פסקאות שנשלפו באמצעות מערכת אחזור מידע כראיה נוספת.

  • גודל הורדה : 6.08 MiB

  • גודל ערכת נתונים : 6.28 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 500
'train' 4,957
'validation' 500
  • ציטוט :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir_dev

  • תיאור תצורה : OpenBookQA שואפת לקדם מחקר במענה מתקדם לשאלות, תוך בדיקה מעמיקה יותר של הנושא (עם עובדות בולטות המסוכמות כספר פתוח, מסופק גם עם מערך הנתונים) וגם של השפה שבה הוא מתבטא. מכיל שאלות הדורשות חשיבה רב-שלבית, שימוש בידע נוסף נפוץ והגיוני והבנת טקסט עשיר. OpenBookQA הוא סוג חדש של מערך נתונים לתשובות לשאלות שעוצב לפי בחינות ספר פתוח להערכת הבנה אנושית של נושא. גרסה זו כוללת פסקאות שנשלפו באמצעות מערכת אחזור מידע כראיה נוספת.

  • גודל הורדה : 6.08 MiB

  • גודל ערכת נתונים : 6.28 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 500
'train' 4,957
'validation' 500
  • ציטוט :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/physical_iqa

  • תיאור תצורה : זהו מערך נתונים לבחינת התקדמות בהבנת הגיון הפיזי. המשימה הבסיסית היא תשובה לשאלות מרובות בחירה: בהינתן שאלה ש' ושני פתרונות אפשריים s1, s2, על מודל או אדם לבחור את הפתרון המתאים ביותר, שאחד מהם נכון. מערך הנתונים מתמקד במצבים יומיומיים עם העדפה לפתרונות לא טיפוסיים. מערך הנתונים נוצר בהשראת instructables.com, המספק למשתמשים הוראות כיצד לבנות, ליצור, לאפות או לתפעל חפצים באמצעות חומרים יומיומיים. כותבים מתבקשים לספק הפרעות סמנטיות או גישות אלטרנטיביות הדומות אחרת מבחינה תחבירית ואקטואלית כדי להבטיח שהידע הפיזי ממוקד. מערך הנתונים עובר ניקוי נוסף מחפצים בסיסיים באמצעות אלגוריתם AFLite.

  • גודל הורדה : 6.01 MiB

  • גודל מערך נתונים : 6.59 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 16,113
'validation' 1,838
  • ציטוט :
@inproceedings{bisk2020piqa,
    title={Piqa: Reasoning about physical commonsense in natural language},
    author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={7432--7439},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc

  • תיאור תצורה : QASC הוא מערך נתונים המענה על שאלות עם התמקדות בהרכב המשפטים. הוא מורכב משאלות רב-ברירה בעלות 8 כיוונים על מדעי בית הספר היסודי, ומגיע עם קורפוס של 17 מיליון משפטים.

  • גודל הורדה : 1.75 MiB

  • גודל מערך נתונים : 2.09 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 920
'train' 8,134
'validation' 926
  • ציטוט :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_test

  • תיאור תצורה : QASC הוא מערך נתונים המענה על שאלות עם התמקדות בהרכב המשפטים. הוא מורכב משאלות רב-ברירה בעלות 8 כיוונים על מדעי בית הספר היסודי, ומגיע עם קורפוס של 17 מיליון משפטים.

  • גודל הורדה : 1.75 MiB

  • גודל מערך נתונים : 2.09 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 920
'train' 8,134
'validation' 926
  • ציטוט :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir

  • תיאור תצורה : QASC הוא מערך נתונים המענה על שאלות עם התמקדות בהרכב המשפטים. הוא מורכב משאלות רב-ברירה בעלות 8 כיוונים על מדעי בית הספר היסודי, ומגיע עם קורפוס של 17 מיליון משפטים. גרסה זו כוללת פסקאות שנשלפו באמצעות מערכת אחזור מידע כראיה נוספת.

  • גודל הורדה : 16.95 MiB

  • גודל ערכת נתונים : 17.30 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 920
'train' 8,134
'validation' 926
  • ציטוט :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir_test

  • תיאור תצורה : QASC הוא מערך נתונים המענה על שאלות עם התמקדות בהרכב המשפטים. הוא מורכב משאלות רב-ברירה בעלות 8 כיוונים על מדעי בית הספר היסודי, ומגיע עם קורפוס של 17 מיליון משפטים. גרסה זו כוללת פסקאות שנשלפו באמצעות מערכת אחזור מידע כראיה נוספת.

  • גודל הורדה : 16.95 MiB

  • גודל ערכת נתונים : 17.30 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 920
'train' 8,134
'validation' 926
  • ציטוט :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/quoref

  • תיאור תצורה : מערך נתונים זה בודק את יכולת החשיבה הבסיסית של מערכות הבנת הנקרא. במבחן טווח בחירה זה המכיל שאלות על פסקאות מויקיפדיה, מערכת חייבת לפתור את ההפניות הקשות לפני בחירת הטווח המתאים בפסקאות למענה על שאלות.

  • גודל הורדה : 51.43 MiB

  • גודל מערך נתונים : 52.29 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 22,265
'validation' 2,768
  • ציטוט :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string

  • תיאור תצורה : גזע הוא מערך נתונים בקנה מידה גדול של הבנת הנקרא. מערך הנתונים נאסף מבחינות אנגלית בסין, המיועדות לתלמידי חטיבת ביניים ותיכון. ניתן להגיש את מערך הנתונים כמערכי ההדרכה והבדיקה להבנת מכונה.

  • גודל הורדה : 167.97 MiB

  • גודל ערכת נתונים: 171.23 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 4,934
'train' 87,863
'validation' 4,887
  • ציטוט :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/race_string_dev

  • תיאור תצורה : גזע הוא מערך נתונים בקנה מידה גדול של הבנת הנקרא. מערך הנתונים נאסף מבחינות אנגלית בסין, המיועדות לתלמידי חטיבת ביניים ותיכון. ניתן להגיש את מערך הנתונים כמערכי ההדרכה והבדיקה להבנת מכונה.

  • גודל הורדה : 167.97 MiB

  • גודל ערכת נתונים: 171.23 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, אימות), רק כאשר shuffle_files=False (רכבת)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 4,934
'train' 87,863
'validation' 4,887
  • ציטוט :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ropes

  • תיאור תצורה : מערך נתונים זה בודק את יכולתה של מערכת ליישם ידע ממעבר טקסט למצב חדש. מערכת מוצגת קטע רקע המכיל קשר(ים) סיבתי או איכותי (למשל, "מאביקי בעלי חיים מגבירים את יעילות ההפריה בפרחים"), מצב חדשני המשתמש ברקע זה, ושאלות הדורשות חשיבה לגבי השפעות הקשרים בפרחים. קטע הרקע בהקשר של המצב.

  • גודל הורדה : 12.91 MiB

  • גודל מערך נתונים : 13.35 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 10,924
'validation' 1,688
  • ציטוט :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/social_iqa

  • תיאור תצורה : זהו אמת מידה בקנה מידה גדול להיגיון בריא לגבי מצבים חברתיים. IQa חברתי מכיל שאלות רב-ברירות לבדיקת אינטליגנציה רגשית וחברתית במגוון מצבים יומיומיים. באמצעות מיקור המונים נאספות שאלות נכונות ותשובות נכונות ולא נכונות על אינטראקציות חברתיות, תוך שימוש במסגרת חדשה המפחיתה חפצים סגנוניים בתשובות שגויות על ידי בקשה מהעובדים לספק את התשובה הנכונה לשאלה אחרת אך קשורה.

  • גודל הורדה : 7.08 MiB

  • גודל מערך נתונים : 8.22 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 33,410
'validation' 1,954
  • ציטוט :
@inproceedings{sap-etal-2019-social,
    title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
    author = "Sap, Maarten  and
      Rashkin, Hannah  and
      Chen, Derek  and
      Le Bras, Ronan  and
      Choi, Yejin",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1454",
    doi = "10.18653/v1/D19-1454",
    pages = "4463--4473",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad1_1

  • תיאור תצורה : זהו מערך נתונים של הבנת הנקרא המורכב משאלות שהעלו עובדי המונים על קבוצה של מאמרים בוויקיפדיה, כאשר התשובה לכל שאלה היא קטע טקסט מקטע הקריאה המתאים.

  • גודל הורדה : 80.62 MiB

  • גודל מערך נתונים : 83.99 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 87,514
'validation' 10,570
  • ציטוט :
@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad2

  • תיאור תצורה : מערך נתונים זה משלב את מערך הנתונים המקורי של Stanford Question Answering Dataset (SQuAD) עם שאלות בלתי ניתנות לתשובה שנכתבו באופן יריב על ידי עובדי המונים כדי להיראות דומים לשאלות הניתנות לתשובה.

  • גודל הורדה : 116.56 MiB

  • גודל ערכת נתונים: 121.43 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 130,149
'validation' 11,873
  • ציטוט :
@inproceedings{rajpurkar-etal-2018-know,
    title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
    author = "Rajpurkar, Pranav  and
      Jia, Robin  and
      Liang, Percy",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-2124",
    doi = "10.18653/v1/P18-2124",
    pages = "784--789",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_l

  • תיאור תצורה : מערך נתונים זה נוצר בהשראת העיצוב המקורי של Winograd Schema Challenge, אך מותאם כדי לשפר הן את קנה המידה והן את הקשיות של מערך הנתונים. השלבים העיקריים של בניית מערך הנתונים כוללים (1) הליך מיקור המונים שתוכנן בקפידה, ולאחריו (2) הפחתת הטיה שיטתית באמצעות אלגוריתם AfLite חדש שמכליל אסוציאציות של מילים הניתנות לזיהוי אנושי לאסוציאציות הטבעה הניתנות לזיהוי באמצעות מכונה. מסופקים ערכות אימון בגדלים שונים. סט זה מתאים לגודל l .

  • גודל הורדה : 1.49 MiB

  • גודל מערך נתונים : 1.83 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 10,234
'validation' 1,267
  • ציטוט :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_m

  • תיאור תצורה : מערך נתונים זה נוצר בהשראת העיצוב המקורי של Winograd Schema Challenge, אך מותאם כדי לשפר הן את קנה המידה והן את הקשיות של מערך הנתונים. השלבים העיקריים של בניית מערך הנתונים כוללים (1) הליך מיקור המונים שתוכנן בקפידה, ולאחריו (2) הפחתת הטיה שיטתית באמצעות אלגוריתם AfLite חדש שמכליל אסוציאציות של מילים הניתנות לזיהוי אנושי לאסוציאציות הטבעה הניתנות לזיהוי באמצעות מכונה. מסופקים ערכות אימון בגדלים שונים. סט זה מתאים לגודל m .

  • גודל הורדה : 507.46 KiB

  • גודל ערכת נתונים: 623.15 KiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 2,558
'validation' 1,267
  • ציטוט :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_s

  • תיאור תצורה : מערך נתונים זה נוצר בהשראת העיצוב המקורי של Winograd Schema Challenge, אך מותאם כדי לשפר הן את קנה המידה והן את הקשיות של מערך הנתונים. השלבים העיקריים של בניית מערך הנתונים כוללים (1) הליך מיקור המונים שתוכנן בקפידה, ולאחריו (2) הפחתת הטיה שיטתית באמצעות אלגוריתם AfLite חדש שמכליל אסוציאציות של מילים הניתנות לזיהוי אנושי לאסוציאציות הטבעה הניתנות לזיהוי באמצעות מכונה. מסופקים ערכות אימון בגדלים שונים. סט זה מתאים לגודל s .

  • גודל הורדה : 479.24 KiB

  • גודל מערך נתונים : 590.47 KiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,767
'train' 640
'validation' 1,267
  • ציטוט :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."