एकीकृत_क्यूए

  • विवरण :

यूनिफाइड क्यूए बेंचमार्क में 20 मुख्य प्रश्न उत्तर (क्यूए) डेटासेट होते हैं (प्रत्येक में कई संस्करण हो सकते हैं) जो विभिन्न स्वरूपों के साथ-साथ विभिन्न जटिल भाषाई घटनाओं को लक्षित करते हैं। इन डेटासेट को कई स्वरूपों/श्रेणियों में बांटा गया है, जिनमें शामिल हैं: निष्कर्षात्मक क्यूए, अमूर्त क्यूए, बहु-विकल्प क्यूए, और हां/नहीं क्यूए। इसके अतिरिक्त, कई डेटासेट के लिए कंट्रास्ट सेट का उपयोग किया जाता है ("कंट्रास्ट सेट " के साथ चिह्नित)। ये मूल्यांकन सेट विशेषज्ञ-जनित गड़बड़ी हैं जो मूल डेटासेट में सामान्य पैटर्न से विचलित होते हैं। कई डेटासेट के लिए जो सबूत पैराग्राफ के साथ नहीं आते हैं, दो वेरिएंट शामिल हैं: एक जहां डेटासेट का उपयोग किया जाता है- जैसा है और दूसरा जो अतिरिक्त सबूत के रूप में सूचना पुनर्प्राप्ति प्रणाली के माध्यम से प्राप्त पैराग्राफ का उपयोग करता है, जिसे "_ir" टैग के साथ दर्शाया गया है।

अधिक जानकारी यहां पाई जा सकती है: https://github.com/allenai/unifiedqa

FeaturesDict({
    'input': string,
    'output': string,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
इनपुट टेन्सर डोरी
उत्पादन टेन्सर डोरी
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

unified_qa/ai2_science_elementary (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िगरेशन विवरण : AI2 विज्ञान प्रश्न डेटासेट में संयुक्त राज्य अमेरिका में प्राथमिक और मध्य विद्यालय ग्रेड स्तरों पर छात्र आकलन में उपयोग किए गए प्रश्न शामिल हैं। प्रत्येक प्रश्न 4-तरफा बहुविकल्पी प्रारूप है और इसमें आरेख तत्व शामिल हो भी सकता है और नहीं भी। इस सेट में प्राथमिक विद्यालय ग्रेड स्तरों के लिए उपयोग किए जाने वाले प्रश्न शामिल हैं।

  • डाउनलोड आकार : 345.59 KiB

  • डेटासेट का आकार : 390.02 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 542
'train' 623
'validation' 123
  • उद्धरण :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ai2_science_middle

  • कॉन्फ़िगरेशन विवरण : AI2 विज्ञान प्रश्न डेटासेट में संयुक्त राज्य अमेरिका में प्राथमिक और मध्य विद्यालय ग्रेड स्तरों पर छात्र आकलन में उपयोग किए गए प्रश्न शामिल हैं। प्रत्येक प्रश्न 4-तरफा बहुविकल्पी प्रारूप है और इसमें आरेख तत्व शामिल हो भी सकता है और नहीं भी। इस सेट में मध्य विद्यालय ग्रेड स्तरों के लिए उपयोग किए जाने वाले प्रश्न शामिल हैं।

  • डाउनलोड आकार : 428.41 KiB

  • डेटासेट का आकार : 477.40 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 679
'train' 605
'validation' 125
  • उद्धरण :
http://data.allenai.org/ai2-science-questions

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ambigqa

  • Config विवरण : AmbigQA एक ओपन-डोमेन प्रश्न उत्तर देने वाला कार्य है जिसमें प्रत्येक प्रशंसनीय उत्तर खोजना शामिल है, और फिर अस्पष्टता को हल करने के लिए प्रत्येक के लिए प्रश्न को फिर से लिखना शामिल है।

  • डाउनलोड आकार : 2.27 MiB

  • डेटासेट का आकार : 3.04 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 19,806
'validation' 5,674
  • उद्धरण :
@inproceedings{min-etal-2020-ambigqa,
    title = "{A}mbig{QA}: Answering Ambiguous Open-domain Questions",
    author = "Min, Sewon  and
      Michael, Julian  and
      Hajishirzi, Hannaneh  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.466",
    doi = "10.18653/v1/2020.emnlp-main.466",
    pages = "5783--5797",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/आर्क_ईज़ी

  • कॉन्फिग विवरण : इस डेटासेट में वास्तविक ग्रेड-स्कूल स्तर, बहुविकल्पीय विज्ञान प्रश्न होते हैं, जो उन्नत प्रश्न-उत्तर में अनुसंधान को प्रोत्साहित करने के लिए इकट्ठे होते हैं। डेटासेट को एक चुनौती सेट और एक आसान सेट में विभाजित किया गया है, जहां पूर्व में केवल पुनर्प्राप्ति-आधारित एल्गोरिदम और शब्द सह-घटना एल्गोरिदम दोनों द्वारा गलत उत्तर दिए गए प्रश्न शामिल हैं। इस सेट में "आसान" प्रश्न होते हैं।

  • डाउनलोड का आकार : 1.24 MiB

  • डेटासेट का आकार : 1.42 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,376
'train' 2,251
'validation' 570
  • उद्धरण :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_dev

  • कॉन्फिग विवरण : इस डेटासेट में वास्तविक ग्रेड-स्कूल स्तर, बहुविकल्पीय विज्ञान प्रश्न होते हैं, जो उन्नत प्रश्न-उत्तर में अनुसंधान को प्रोत्साहित करने के लिए इकट्ठे होते हैं। डेटासेट को एक चुनौती सेट और एक आसान सेट में विभाजित किया गया है, जहां पूर्व में केवल पुनर्प्राप्ति-आधारित एल्गोरिदम और शब्द सह-घटना एल्गोरिदम दोनों द्वारा गलत उत्तर दिए गए प्रश्न शामिल हैं। इस सेट में "आसान" प्रश्न होते हैं।

  • डाउनलोड का आकार : 1.24 MiB

  • डेटासेट का आकार : 1.42 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,376
'train' 2,251
'validation' 570
  • उद्धरण :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir

  • कॉन्फिग विवरण : इस डेटासेट में वास्तविक ग्रेड-स्कूल स्तर, बहुविकल्पीय विज्ञान प्रश्न होते हैं, जो उन्नत प्रश्न-उत्तर में अनुसंधान को प्रोत्साहित करने के लिए इकट्ठे होते हैं। डेटासेट को एक चुनौती सेट और एक आसान सेट में विभाजित किया गया है, जहां पूर्व में केवल पुनर्प्राप्ति-आधारित एल्गोरिदम और शब्द सह-घटना एल्गोरिदम दोनों द्वारा गलत उत्तर दिए गए प्रश्न शामिल हैं। इस सेट में "आसान" प्रश्न होते हैं। इस संस्करण में अतिरिक्त साक्ष्य के रूप में सूचना पुनर्प्राप्ति प्रणाली के माध्यम से प्राप्त किए गए पैराग्राफ शामिल हैं।

  • डाउनलोड आकार : 7.00 MiB

  • डेटासेट का आकार : 7.17 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,376
'train' 2,251
'validation' 570
  • उद्धरण :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/arc_easy_with_ir_dev

  • कॉन्फिग विवरण : इस डेटासेट में वास्तविक ग्रेड-स्कूल स्तर, बहुविकल्पीय विज्ञान प्रश्न होते हैं, जो उन्नत प्रश्न-उत्तर में अनुसंधान को प्रोत्साहित करने के लिए इकट्ठे होते हैं। डेटासेट को एक चुनौती सेट और एक आसान सेट में विभाजित किया गया है, जहां पूर्व में केवल पुनर्प्राप्ति-आधारित एल्गोरिदम और शब्द सह-घटना एल्गोरिदम दोनों द्वारा गलत उत्तर दिए गए प्रश्न शामिल हैं। इस सेट में "आसान" प्रश्न होते हैं। इस संस्करण में अतिरिक्त साक्ष्य के रूप में सूचना पुनर्प्राप्ति प्रणाली के माध्यम से प्राप्त किए गए पैराग्राफ शामिल हैं।

  • डाउनलोड आकार : 7.00 MiB

  • डेटासेट का आकार : 7.17 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,376
'train' 2,251
'validation' 570
  • उद्धरण :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/आर्क_हार्ड

  • कॉन्फिग विवरण : इस डेटासेट में वास्तविक ग्रेड-स्कूल स्तर, बहुविकल्पीय विज्ञान प्रश्न होते हैं, जो उन्नत प्रश्न-उत्तर में अनुसंधान को प्रोत्साहित करने के लिए इकट्ठे होते हैं। डेटासेट को एक चुनौती सेट और एक आसान सेट में विभाजित किया गया है, जहां पूर्व में केवल पुनर्प्राप्ति-आधारित एल्गोरिदम और शब्द सह-घटना एल्गोरिदम दोनों द्वारा गलत उत्तर दिए गए प्रश्न शामिल हैं। इस सेट में "कठिन" प्रश्न होते हैं।

  • डाउनलोड आकार : 758.03 KiB

  • डेटासेट का आकार : 848.28 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,172
'train' 1,119
'validation' 299
  • उद्धरण :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/आर्क_हार्ड_देव

  • कॉन्फिग विवरण : इस डेटासेट में वास्तविक ग्रेड-स्कूल स्तर, बहुविकल्पीय विज्ञान प्रश्न होते हैं, जो उन्नत प्रश्न-उत्तर में अनुसंधान को प्रोत्साहित करने के लिए इकट्ठे होते हैं। डेटासेट को एक चुनौती सेट और एक आसान सेट में विभाजित किया गया है, जहां पूर्व में केवल पुनर्प्राप्ति-आधारित एल्गोरिदम और शब्द सह-घटना एल्गोरिदम दोनों द्वारा गलत उत्तर दिए गए प्रश्न शामिल हैं। इस सेट में "कठिन" प्रश्न होते हैं।

  • डाउनलोड आकार : 758.03 KiB

  • डेटासेट का आकार : 848.28 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,172
'train' 1,119
'validation' 299
  • उद्धरण :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/आर्क_हार्ड_विथ_आईआर

  • कॉन्फिग विवरण : इस डेटासेट में वास्तविक ग्रेड-स्कूल स्तर, बहुविकल्पीय विज्ञान प्रश्न होते हैं, जो उन्नत प्रश्न-उत्तर में अनुसंधान को प्रोत्साहित करने के लिए इकट्ठे होते हैं। डेटासेट को एक चुनौती सेट और एक आसान सेट में विभाजित किया गया है, जहां पूर्व में केवल पुनर्प्राप्ति-आधारित एल्गोरिदम और शब्द सह-घटना एल्गोरिदम दोनों द्वारा गलत उत्तर दिए गए प्रश्न शामिल हैं। इस सेट में "कठिन" प्रश्न होते हैं। इस संस्करण में अतिरिक्त साक्ष्य के रूप में सूचना पुनर्प्राप्ति प्रणाली के माध्यम से प्राप्त किए गए पैराग्राफ शामिल हैं।

  • डाउनलोड आकार : 3.53 MiB

  • डेटासेट का आकार : 3.62 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,172
'train' 1,119
'validation' 299
  • उद्धरण :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/आर्क_हार्ड_विथ_आईआर_देव

  • कॉन्फिग विवरण : इस डेटासेट में वास्तविक ग्रेड-स्कूल स्तर, बहुविकल्पीय विज्ञान प्रश्न होते हैं, जो उन्नत प्रश्न-उत्तर में अनुसंधान को प्रोत्साहित करने के लिए इकट्ठे होते हैं। डेटासेट को एक चुनौती सेट और एक आसान सेट में विभाजित किया गया है, जहां पूर्व में केवल पुनर्प्राप्ति-आधारित एल्गोरिदम और शब्द सह-घटना एल्गोरिदम दोनों द्वारा गलत उत्तर दिए गए प्रश्न शामिल हैं। इस सेट में "कठिन" प्रश्न होते हैं। इस संस्करण में अतिरिक्त साक्ष्य के रूप में सूचना पुनर्प्राप्ति प्रणाली के माध्यम से प्राप्त किए गए पैराग्राफ शामिल हैं।

  • डाउनलोड आकार : 3.53 MiB

  • डेटासेट का आकार : 3.62 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,172
'train' 1,119
'validation' 299
  • उद्धरण :
@article{clark2018think,
    title={Think you have solved question answering? try arc, the ai2 reasoning challenge},
    author={Clark, Peter and Cowhey, Isaac and Etzioni, Oren and Khot, Tushar and Sabharwal, Ashish and Schoenick, Carissa and Tafjord, Oyvind},
    journal={arXiv preprint arXiv:1803.05457},
    year={2018}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/बूलक्यू

  • कॉन्फिग विवरण : बूलक्यू हां/नहीं प्रश्नों के लिए एक प्रश्न उत्तर देने वाला डेटासेट है। ये प्रश्न स्वाभाविक रूप से उत्पन्न होते हैं --- वे असंयमित और अप्रतिबंधित सेटिंग्स में उत्पन्न होते हैं। प्रत्येक उदाहरण वैकल्पिक अतिरिक्त संदर्भ के रूप में पृष्ठ के शीर्षक के साथ (प्रश्न, गद्यांश, उत्तर) का एक त्रिक है। टेक्स्ट-जोड़ी वर्गीकरण सेटअप मौजूदा प्राकृतिक भाषा अनुमान कार्यों के समान है।

  • डाउनलोड आकार : 7.77 MiB

  • डेटासेट का आकार : 8.20 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 9,427
'validation' 3,270
  • उद्धरण :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/बूलक्यू_एनपी

  • कॉन्फिग विवरण : बूलक्यू हां/नहीं प्रश्नों के लिए एक प्रश्न उत्तर देने वाला डेटासेट है। ये प्रश्न स्वाभाविक रूप से उत्पन्न होते हैं --- वे असंयमित और अप्रतिबंधित सेटिंग्स में उत्पन्न होते हैं। प्रत्येक उदाहरण वैकल्पिक अतिरिक्त संदर्भ के रूप में पृष्ठ के शीर्षक के साथ (प्रश्न, गद्यांश, उत्तर) का एक त्रिक है। टेक्स्ट-जोड़ी वर्गीकरण सेटअप मौजूदा प्राकृतिक भाषा अनुमान कार्यों के समान है। यह संस्करण मूल संस्करण में प्राकृतिक गड़बड़ी जोड़ता है।

  • डाउनलोड आकार : 10.80 MiB

  • डेटासेट का आकार : 11.40 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 9,727
'validation' 7,596
  • उद्धरण :
@inproceedings{khashabi-etal-2020-bang,
    title = "More Bang for Your Buck: Natural Perturbation for Robust Question Answering",
    author = "Khashabi, Daniel  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.12",
    doi = "10.18653/v1/2020.emnlp-main.12",
    pages = "163--170",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa

  • कॉन्फिग विवरण : कॉमन्सेंस क्यूए एक नया बहुविकल्पीय प्रश्न उत्तर डेटासेट है जिसमें सही उत्तरों की भविष्यवाणी करने के लिए विभिन्न प्रकार के कॉमनसेंस ज्ञान की आवश्यकता होती है। इसमें एक सही उत्तर और चार विचलित करने वाले उत्तरों वाले प्रश्न हैं।

  • डाउनलोड आकार : 1.79 MiB

  • डेटासेट का आकार : 2.19 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,140
'train' 9,741
'validation' 1,221
  • उद्धरण :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/commonsenseqa_test

  • कॉन्फिग विवरण : कॉमन्सेंस क्यूए एक नया बहुविकल्पीय प्रश्न उत्तर डेटासेट है जिसमें सही उत्तरों की भविष्यवाणी करने के लिए विभिन्न प्रकार के कॉमनसेंस ज्ञान की आवश्यकता होती है। इसमें एक सही उत्तर और चार विचलित करने वाले उत्तरों वाले प्रश्न हैं।

  • डाउनलोड आकार : 1.79 MiB

  • डेटासेट का आकार : 2.19 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,140
'train' 9,741
'validation' 1,221
  • उद्धरण :
@inproceedings{talmor-etal-2019-commonsenseqa,
    title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge",
    author = "Talmor, Alon  and
      Herzig, Jonathan  and
      Lourie, Nicholas  and
      Berant, Jonathan",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1421",
    doi = "10.18653/v1/N19-1421",
    pages = "4149--4158",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_boolq

  • कॉन्फिग विवरण : बूलक्यू हां/नहीं प्रश्नों के लिए एक प्रश्न उत्तर देने वाला डेटासेट है। ये प्रश्न स्वाभाविक रूप से उत्पन्न होते हैं --- वे असंयमित और अप्रतिबंधित सेटिंग्स में उत्पन्न होते हैं। प्रत्येक उदाहरण वैकल्पिक अतिरिक्त संदर्भ के रूप में पृष्ठ के शीर्षक के साथ (प्रश्न, गद्यांश, उत्तर) का एक त्रिक है। टेक्स्ट-जोड़ी वर्गीकरण सेटअप मौजूदा प्राकृतिक भाषा अनुमान कार्यों के समान है। यह संस्करण कंट्रास्ट सेट का उपयोग करता है। ये मूल्यांकन सेट विशेषज्ञ-जनित गड़बड़ी हैं जो मूल डेटासेट में सामान्य पैटर्न से विचलित होते हैं।

  • डाउनलोड आकार : 438.51 KiB

  • डेटासेट का आकार : 462.35 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 340
'validation' 340
  • उद्धरण :
@inproceedings{clark-etal-2019-boolq,
    title = "{B}ool{Q}: Exploring the Surprising Difficulty of Natural Yes/No Questions",
    author = "Clark, Christopher  and
      Lee, Kenton  and
      Chang, Ming-Wei  and
      Kwiatkowski, Tom  and
      Collins, Michael  and
      Toutanova, Kristina",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1300",
    doi = "10.18653/v1/N19-1300",
    pages = "2924--2936",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_drop

  • Config विवरण : DROP एक क्राउडसोर्स्ड, प्रतिकूल रूप से निर्मित QA बेंचमार्क है, जिसमें एक सिस्टम को एक प्रश्न में संदर्भों को हल करना चाहिए, शायद कई इनपुट स्थितियों के लिए, और उन पर असतत संचालन करना चाहिए (जैसे कि जोड़ना, गिनना या सॉर्ट करना)। इन परिचालनों के लिए पिछले डेटासेट के लिए जरूरी समझ की तुलना में पैराग्राफ की सामग्री की अधिक व्यापक समझ की आवश्यकता होती है। यह संस्करण कंट्रास्ट सेट का उपयोग करता है। ये मूल्यांकन सेट विशेषज्ञ-जनित गड़बड़ी हैं जो मूल डेटासेट में सामान्य पैटर्न से विचलित होते हैं।

  • डाउनलोड आकार : 2.20 MiB

  • डेटासेट का आकार : 2.26 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 947
'validation' 947
  • उद्धरण :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_quoref

  • कॉन्फ़िग विवरण : यह डेटासेट रीडिंग कॉम्प्रिहेंशन सिस्टम की कोरफेरेंशियल रीज़निंग क्षमता का परीक्षण करता है। इस स्पैन-चयन बेंचमार्क में विकिपीडिया के पैराग्राफों पर प्रश्न हैं, प्रश्नों के उत्तर देने के लिए पैराग्राफों में उपयुक्त स्पैन (एस) का चयन करने से पहले एक सिस्टम को हार्ड कोरेफेरेंस को हल करना चाहिए। यह संस्करण कंट्रास्ट सेट का उपयोग करता है। ये मूल्यांकन सेट विशेषज्ञ-जनित गड़बड़ी हैं जो मूल डेटासेट में सामान्य पैटर्न से विचलित होते हैं।

  • डाउनलोड आकार : 2.60 MiB

  • डेटासेट का आकार : 2.65 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 700
'validation' 700
  • उद्धरण :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/contrast_sets_ropes

  • कॉन्फ़िगरेशन विवरण : यह डेटासेट पाठ के एक अंश से नई स्थिति में ज्ञान को लागू करने के लिए सिस्टम की क्षमता का परीक्षण करता है। एक प्रणाली को एक पृष्ठभूमि मार्ग प्रस्तुत किया जाता है जिसमें एक कारण या गुणात्मक संबंध होता है (उदाहरण के लिए, "पशु परागणकर्ता फूलों में निषेचन की दक्षता बढ़ाते हैं"), एक नई स्थिति जो इस पृष्ठभूमि का उपयोग करती है, और ऐसे प्रश्न जिनमें संबंधों के प्रभावों के बारे में तर्क की आवश्यकता होती है स्थिति के संदर्भ में पृष्ठभूमि मार्ग। यह संस्करण कंट्रास्ट सेट का उपयोग करता है। ये मूल्यांकन सेट विशेषज्ञ-जनित गड़बड़ी हैं जो मूल डेटासेट में सामान्य पैटर्न से विचलित होते हैं।

  • डाउनलोड आकार : 1.97 MiB

  • डेटासेट का आकार : 2.04 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 974
'validation' 974
  • उद्धरण :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/ड्रॉप

  • Config विवरण : DROP एक क्राउडसोर्स्ड, प्रतिकूल रूप से निर्मित QA बेंचमार्क है, जिसमें एक सिस्टम को एक प्रश्न में संदर्भों को हल करना चाहिए, शायद कई इनपुट स्थितियों के लिए, और उन पर असतत संचालन करना चाहिए (जैसे कि जोड़ना, गिनना या सॉर्ट करना)। इन परिचालनों के लिए पिछले डेटासेट के लिए जरूरी समझ की तुलना में पैराग्राफ की सामग्री की अधिक व्यापक समझ की आवश्यकता होती है।

  • डाउनलोड आकार : 105.18 MiB

  • डेटासेट का आकार : 108.16 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 77,399
'validation' 9,536
  • उद्धरण :
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest

  • कॉन्फिग विवरण : MCTest को काल्पनिक कहानियों के बारे में बहु-विकल्प पठन बोध संबंधी प्रश्नों के उत्तर देने के लिए मशीनों की आवश्यकता होती है, जो खुले-डोमेन मशीन बोध के उच्च-स्तरीय लक्ष्य से सीधे निपटते हैं। पढ़ना समझ उन्नत क्षमताओं का परीक्षण कर सकता है जैसे कारण तर्क और दुनिया को समझना, फिर भी, बहुविकल्पी होने से, अभी भी एक स्पष्ट मीट्रिक प्रदान करता है। काल्पनिक होने के कारण, इसका उत्तर आम तौर पर केवल कहानी में ही पाया जा सकता है। कहानियाँ और प्रश्न भी सावधानी से उन तक सीमित हैं जिन्हें एक छोटा बच्चा समझेगा, जिससे कार्य के लिए आवश्यक विश्व ज्ञान कम हो जाएगा।

  • डाउनलोड आकार : 2.14 MiB

  • डेटासेट का आकार : 2.20 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 1,480
'validation' 320
  • उद्धरण :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/mctest_corrected_the_separator

  • कॉन्फिग विवरण : MCTest को काल्पनिक कहानियों के बारे में बहु-विकल्प पठन बोध संबंधी प्रश्नों के उत्तर देने के लिए मशीनों की आवश्यकता होती है, जो खुले-डोमेन मशीन बोध के उच्च-स्तरीय लक्ष्य से सीधे निपटते हैं। पढ़ना समझ उन्नत क्षमताओं का परीक्षण कर सकता है जैसे कारण तर्क और दुनिया को समझना, फिर भी, बहुविकल्पी होने से, अभी भी एक स्पष्ट मीट्रिक प्रदान करता है। काल्पनिक होने के कारण, इसका उत्तर आम तौर पर केवल कहानी में ही पाया जा सकता है। कहानियाँ और प्रश्न भी सावधानी से उन तक सीमित हैं जिन्हें एक छोटा बच्चा समझेगा, जिससे कार्य के लिए आवश्यक विश्व ज्ञान कम हो जाएगा।

  • डाउनलोड आकार : 2.15 MiB

  • डेटासेट का आकार : 2.21 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 1,480
'validation' 320
  • उद्धरण :
@inproceedings{richardson-etal-2013-mctest,
    title = "{MCT}est: A Challenge Dataset for the Open-Domain Machine Comprehension of Text",
    author = "Richardson, Matthew  and
      Burges, Christopher J.C.  and
      Renshaw, Erin",
    booktitle = "Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing",
    month = oct,
    year = "2013",
    address = "Seattle, Washington, USA",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D13-1020",
    pages = "193--203",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/multirc

  • कॉन्फिग विवरण : मल्टीआरसी एक रीडिंग कॉम्प्रिहेंशन चैलेंज है जिसमें कई वाक्यों से जानकारी को ध्यान में रखते हुए प्रश्नों का उत्तर दिया जा सकता है। इस चुनौती के लिए प्रश्न और उत्तर 4-चरणीय क्राउडसोर्सिंग प्रयोग के माध्यम से मांगे गए और सत्यापित किए गए। डेटासेट में 7 अलग-अलग डोमेन (प्राथमिक विद्यालय विज्ञान, समाचार, यात्रा गाइड, कथा कहानियां, आदि) के अनुच्छेदों के लिए प्रश्न शामिल हैं, जो ग्रंथों और प्रश्नों के शब्दों में भाषाई विविधता लाते हैं।

  • डाउनलोड आकार : 897.09 KiB

  • डेटासेट का आकार : 918.42 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 312
'validation' 312
  • उद्धरण :
@inproceedings{khashabi-etal-2018-looking,
    title = "Looking Beyond the Surface: A Challenge Set for Reading Comprehension over Multiple Sentences",
    author = "Khashabi, Daniel  and
      Chaturvedi, Snigdha  and
      Roth, Michael  and
      Upadhyay, Shyam  and
      Roth, Dan",
    booktitle = "Proceedings of the 2018 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers)",
    month = jun,
    year = "2018",
    address = "New Orleans, Louisiana",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N18-1023",
    doi = "10.18653/v1/N18-1023",
    pages = "252--262",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa

  • Config विवरण : NarrativeQA कहानियों का एक अंग्रेजी-भाषा डेटासेट है और विशेष रूप से लंबे दस्तावेज़ों पर पढ़ने की समझ का परीक्षण करने के लिए डिज़ाइन किए गए संबंधित प्रश्न हैं।

  • डाउनलोड आकार : 308.28 MiB

  • डेटासेट का आकार : 311.22 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 21,114
'train' 65,494
'validation' 6,922
  • उद्धरण :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/narrativeqa_dev

  • Config विवरण : NarrativeQA कहानियों का एक अंग्रेजी-भाषा डेटासेट है और विशेष रूप से लंबे दस्तावेज़ों पर पढ़ने की समझ का परीक्षण करने के लिए डिज़ाइन किए गए संबंधित प्रश्न हैं।

  • डाउनलोड आकार : 308.28 MiB

  • डेटासेट का आकार : 311.22 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 21,114
'train' 65,494
'validation' 6,922
  • उद्धरण :
@article{kocisky-etal-2018-narrativeqa,
    title = "The {N}arrative{QA} Reading Comprehension Challenge",
    author = "Ko{
{c} }isk{'y}, Tom{'a}{
{s} }  and
      Schwarz, Jonathan  and
      Blunsom, Phil  and
      Dyer, Chris  and
      Hermann, Karl Moritz  and
      Melis, G{'a}bor  and
      Grefenstette, Edward",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "6",
    year = "2018",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q18-1023",
    doi = "10.1162/tacl_a_00023",
    pages = "317--328",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

एकीकृत_क्यूए/प्राकृतिक_प्रश्न

  • कॉन्फिग विवरण : NQ कॉर्पस में वास्तविक उपयोगकर्ताओं के प्रश्न होते हैं, और इसके लिए QA सिस्टम की आवश्यकता होती है ताकि पूरे विकिपीडिया लेख को पढ़ा और समझा जा सके जिसमें प्रश्न का उत्तर हो भी सकता है और नहीं भी। वास्तविक उपयोगकर्ता प्रश्नों का समावेश, और आवश्यकता है कि उत्तर खोजने के लिए समाधानों को एक पूरे पृष्ठ को पढ़ना चाहिए, एनक्यू को पिछले क्यूए डेटासेट की तुलना में अधिक यथार्थवादी और चुनौतीपूर्ण कार्य बनाता है।

  • डाउनलोड आकार : 6.95 MiB

  • डेटासेट का आकार : 9.88 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 96,075
'validation' 2,295
  • उद्धरण :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans

  • कॉन्फिग विवरण : NQ कॉर्पस में वास्तविक उपयोगकर्ताओं के प्रश्न होते हैं, और इसके लिए QA सिस्टम की आवश्यकता होती है ताकि पूरे विकिपीडिया लेख को पढ़ा और समझा जा सके जिसमें प्रश्न का उत्तर हो भी सकता है और नहीं भी। वास्तविक उपयोगकर्ता प्रश्नों का समावेश, और आवश्यकता है कि उत्तर खोजने के लिए समाधानों को एक पूरे पृष्ठ को पढ़ना चाहिए, एनक्यू को पिछले क्यूए डेटासेट की तुलना में अधिक यथार्थवादी और चुनौतीपूर्ण कार्य बनाता है। इस संस्करण में प्रत्यक्ष उत्तर वाले प्रश्न हैं।

  • डाउनलोड आकार : 6.82 MiB

  • डेटासेट का आकार : 10.19 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 6,468
'train' 96,676
'validation' 10,693
  • उद्धरण :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_direct_ans_test

  • कॉन्फिग विवरण : NQ कॉर्पस में वास्तविक उपयोगकर्ताओं के प्रश्न होते हैं, और इसके लिए QA सिस्टम की आवश्यकता होती है ताकि पूरे विकिपीडिया लेख को पढ़ा और समझा जा सके जिसमें प्रश्न का उत्तर हो भी सकता है और नहीं भी। वास्तविक उपयोगकर्ता प्रश्नों का समावेश, और आवश्यकता है कि उत्तर खोजने के लिए समाधानों को एक पूरे पृष्ठ को पढ़ना चाहिए, एनक्यू को पिछले क्यूए डेटासेट की तुलना में अधिक यथार्थवादी और चुनौतीपूर्ण कार्य बनाता है। इस संस्करण में प्रत्यक्ष उत्तर वाले प्रश्न हैं।

  • डाउनलोड आकार : 6.82 MiB

  • डेटासेट का आकार : 10.19 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 6,468
'train' 96,676
'validation' 10,693
  • उद्धरण :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_with_dpr_para

  • कॉन्फिग विवरण : NQ कॉर्पस में वास्तविक उपयोगकर्ताओं के प्रश्न होते हैं, और इसके लिए QA सिस्टम की आवश्यकता होती है ताकि पूरे विकिपीडिया लेख को पढ़ा और समझा जा सके जिसमें प्रश्न का उत्तर हो भी सकता है और नहीं भी। वास्तविक उपयोगकर्ता प्रश्नों का समावेश, और आवश्यकता है कि उत्तर खोजने के लिए समाधानों को एक पूरे पृष्ठ को पढ़ना चाहिए, एनक्यू को पिछले क्यूए डेटासेट की तुलना में अधिक यथार्थवादी और चुनौतीपूर्ण कार्य बनाता है। इस संस्करण में प्रत्येक प्रश्न को बढ़ाने के लिए अतिरिक्त पैराग्राफ (डीपीआर पुनर्प्राप्ति इंजन का उपयोग करके प्राप्त) शामिल हैं।

  • डाउनलोड आकार : 319.22 MiB

  • डेटासेट का आकार : 322.91 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'train' 96,676
'validation' 10,693
  • उद्धरण :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/natural_questions_with_dpr_para_test

  • कॉन्फिग विवरण : NQ कॉर्पस में वास्तविक उपयोगकर्ताओं के प्रश्न होते हैं, और इसके लिए QA सिस्टम की आवश्यकता होती है ताकि पूरे विकिपीडिया लेख को पढ़ा और समझा जा सके जिसमें प्रश्न का उत्तर हो भी सकता है और नहीं भी। वास्तविक उपयोगकर्ता प्रश्नों का समावेश, और आवश्यकता है कि उत्तर खोजने के लिए समाधानों को एक पूरे पृष्ठ को पढ़ना चाहिए, एनक्यू को पिछले क्यूए डेटासेट की तुलना में अधिक यथार्थवादी और चुनौतीपूर्ण कार्य बनाता है। इस संस्करण में प्रत्येक प्रश्न को बढ़ाने के लिए अतिरिक्त पैराग्राफ (डीपीआर पुनर्प्राप्ति इंजन का उपयोग करके प्राप्त) शामिल हैं।

  • डाउनलोड आकार : 306.94 MiB

  • डेटासेट का आकार : 310.48 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 6,468
'train' 96,676
  • उद्धरण :
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/newsqa

  • कॉन्फ़िगरेशन विवरण : NewsQA मानव-जनित प्रश्न-उत्तर जोड़े का एक चुनौतीपूर्ण मशीन कॉम्प्रिहेंशन डेटासेट है। क्राउडवर्कर्स सीएनएन से समाचार लेखों के एक सेट के आधार पर प्रश्नों और उत्तरों की आपूर्ति करते हैं, जिसमें संबंधित लेखों से पाठ के विस्तार वाले उत्तर होते हैं।

  • डाउनलोड का आकार : 283.33 MiB

  • डेटासेट का आकार : 285.94 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'train' 75,882
'validation' 4,309
  • उद्धरण :
@inproceedings{trischler-etal-2017-newsqa,
    title = "{N}ews{QA}: A Machine Comprehension Dataset",
    author = "Trischler, Adam  and
      Wang, Tong  and
      Yuan, Xingdi  and
      Harris, Justin  and
      Sordoni, Alessandro  and
      Bachman, Philip  and
      Suleman, Kaheer",
    booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W17-2623",
    doi = "10.18653/v1/W17-2623",
    pages = "191--200",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa

  • Config विवरण : OpenBookQA का उद्देश्य उन्नत प्रश्न-उत्तर में अनुसंधान को बढ़ावा देना है, दोनों विषयों की गहरी समझ की जांच करना (खुली किताब के रूप में सारांशित मुख्य तथ्यों के साथ, डेटासेट के साथ भी प्रदान किया गया है) और जिस भाषा में इसे व्यक्त किया गया है। विशेष रूप से, यह ऐसे प्रश्न हैं जिनके लिए बहु-चरणीय तर्क, अतिरिक्त सामान्य और सामान्य ज्ञान के ज्ञान और समृद्ध पाठ्य समझ की आवश्यकता होती है। OpenBookQA किसी विषय की मानवीय समझ का आकलन करने के लिए ओपन बुक परीक्षा के बाद तैयार किया गया एक नए प्रकार का प्रश्न-उत्तर डेटासेट है।

  • डाउनलोड आकार : 942.34 KiB

  • डेटासेट का आकार : 1.11 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 500
'train' 4,957
'validation' 500
  • उद्धरण :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_dev

  • Config विवरण : OpenBookQA का उद्देश्य उन्नत प्रश्न-उत्तर में अनुसंधान को बढ़ावा देना है, दोनों विषयों की गहरी समझ की जांच करना (खुली किताब के रूप में सारांशित मुख्य तथ्यों के साथ, डेटासेट के साथ भी प्रदान किया गया है) और जिस भाषा में इसे व्यक्त किया गया है। विशेष रूप से, यह ऐसे प्रश्न हैं जिनके लिए बहु-चरणीय तर्क, अतिरिक्त सामान्य और सामान्य ज्ञान के ज्ञान और समृद्ध पाठ्य समझ की आवश्यकता होती है। OpenBookQA किसी विषय की मानवीय समझ का आकलन करने के लिए ओपन बुक परीक्षा के बाद तैयार किया गया एक नए प्रकार का प्रश्न-उत्तर डेटासेट है।

  • डाउनलोड आकार : 942.34 KiB

  • डेटासेट का आकार : 1.11 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 500
'train' 4,957
'validation' 500
  • उद्धरण :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir

  • Config विवरण : OpenBookQA का उद्देश्य उन्नत प्रश्न-उत्तर में अनुसंधान को बढ़ावा देना है, दोनों विषयों की गहरी समझ की जांच करना (खुली किताब के रूप में सारांशित मुख्य तथ्यों के साथ, डेटासेट के साथ भी प्रदान किया गया है) और जिस भाषा में इसे व्यक्त किया गया है। विशेष रूप से, यह ऐसे प्रश्न हैं जिनके लिए बहु-चरणीय तर्क, अतिरिक्त सामान्य और सामान्य ज्ञान के ज्ञान और समृद्ध पाठ्य समझ की आवश्यकता होती है। OpenBookQA किसी विषय की मानवीय समझ का आकलन करने के लिए ओपन बुक परीक्षा के बाद तैयार किया गया एक नए प्रकार का प्रश्न-उत्तर डेटासेट है। इस संस्करण में अतिरिक्त साक्ष्य के रूप में सूचना पुनर्प्राप्ति प्रणाली के माध्यम से प्राप्त किए गए पैराग्राफ शामिल हैं।

  • डाउनलोड आकार : 6.08 MiB

  • डेटासेट का आकार : 6.28 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 500
'train' 4,957
'validation' 500
  • उद्धरण :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/openbookqa_with_ir_dev

  • Config विवरण : OpenBookQA का उद्देश्य उन्नत प्रश्न-उत्तर में अनुसंधान को बढ़ावा देना है, दोनों विषयों की गहरी समझ की जांच करना (खुली किताब के रूप में सारांशित मुख्य तथ्यों के साथ, डेटासेट के साथ भी प्रदान किया गया है) और जिस भाषा में इसे व्यक्त किया गया है। विशेष रूप से, यह ऐसे प्रश्न हैं जिनके लिए बहु-चरणीय तर्क, अतिरिक्त सामान्य और सामान्य ज्ञान के ज्ञान और समृद्ध पाठ्य समझ की आवश्यकता होती है। OpenBookQA किसी विषय की मानवीय समझ का आकलन करने के लिए ओपन बुक परीक्षा के बाद तैयार किया गया एक नए प्रकार का प्रश्न-उत्तर डेटासेट है। इस संस्करण में अतिरिक्त साक्ष्य के रूप में सूचना पुनर्प्राप्ति प्रणाली के माध्यम से प्राप्त किए गए पैराग्राफ शामिल हैं।

  • डाउनलोड आकार : 6.08 MiB

  • डेटासेट का आकार : 6.28 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 500
'train' 4,957
'validation' 500
  • उद्धरण :
@inproceedings{mihaylov-etal-2018-suit,
    title = "Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering",
    author = "Mihaylov, Todor  and
      Clark, Peter  and
      Khot, Tushar  and
      Sabharwal, Ashish",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1260",
    doi = "10.18653/v1/D18-1260",
    pages = "2381--2391",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/फिजिकल_आईक्यूए

  • कॉन्फ़िग विवरण : यह भौतिक सामान्य ज्ञान की समझ में बेंचमार्किंग प्रगति के लिए एक डेटासेट है। अंतर्निहित कार्य बहुविकल्पी प्रश्न का उत्तर देना है: एक प्रश्न q और दो संभावित समाधान दिए गए हैं s1, s2, एक मॉडल या मानव को सबसे उपयुक्त समाधान चुनना होगा, जिनमें से वास्तव में एक सही है। डेटासेट एटिपिकल सॉल्यूशंस की प्राथमिकता के साथ रोजमर्रा की स्थितियों पर ध्यान केंद्रित करता है। डेटासेट इंस्ट्रक्शंस डॉट कॉम से प्रेरित है, जो उपयोगकर्ताओं को रोजमर्रा की सामग्रियों का उपयोग करके वस्तुओं का निर्माण, शिल्प, सेंकना या हेरफेर करने के निर्देश प्रदान करता है। व्याख्याकर्ताओं को सिमेंटिक गड़बड़ी या वैकल्पिक दृष्टिकोण प्रदान करने के लिए कहा जाता है जो अन्यथा वाक्यात्मक रूप से और शीर्ष रूप से भौतिक ज्ञान को लक्षित करने के लिए समान हैं। AFLite एल्गोरिथ्म का उपयोग करके डेटासेट को बुनियादी कलाकृतियों से और साफ किया जाता है।

  • डाउनलोड आकार : 6.01 MiB

  • डेटासेट का आकार : 6.59 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 16,113
'validation' 1,838
  • उद्धरण :
@inproceedings{bisk2020piqa,
    title={Piqa: Reasoning about physical commonsense in natural language},
    author={Bisk, Yonatan and Zellers, Rowan and Gao, Jianfeng and Choi, Yejin and others},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={7432--7439},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc

  • कॉन्फ़िगरेशन विवरण : QASC एक प्रश्न-उत्तर डेटासेट है जो वाक्य रचना पर ध्यान केंद्रित करता है। इसमें ग्रेड स्कूल साइंस के बारे में 8-तरफ़ा बहुविकल्पीय प्रश्न होते हैं, और यह 17M वाक्यों के संग्रह के साथ आता है।

  • डाउनलोड आकार : 1.75 MiB

  • डेटासेट का आकार : 2.09 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 920
'train' 8,134
'validation' 926
  • उद्धरण :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/क्यूएससी_टेस्ट

  • कॉन्फ़िगरेशन विवरण : QASC एक प्रश्न-उत्तर डेटासेट है जो वाक्य रचना पर ध्यान केंद्रित करता है। इसमें ग्रेड स्कूल साइंस के बारे में 8-तरफ़ा बहुविकल्पीय प्रश्न होते हैं, और यह 17M वाक्यों के संग्रह के साथ आता है।

  • डाउनलोड आकार : 1.75 MiB

  • डेटासेट का आकार : 2.09 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 920
'train' 8,134
'validation' 926
  • उद्धरण :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir

  • कॉन्फ़िगरेशन विवरण : QASC एक प्रश्न-उत्तर डेटासेट है जो वाक्य रचना पर ध्यान केंद्रित करता है। इसमें ग्रेड स्कूल साइंस के बारे में 8-तरफ़ा बहुविकल्पीय प्रश्न होते हैं, और यह 17M वाक्यों के संग्रह के साथ आता है। इस संस्करण में अतिरिक्त साक्ष्य के रूप में सूचना पुनर्प्राप्ति प्रणाली के माध्यम से प्राप्त किए गए पैराग्राफ शामिल हैं।

  • डाउनलोड आकार : 16.95 MiB

  • डेटासेट का आकार : 17.30 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 920
'train' 8,134
'validation' 926
  • उद्धरण :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/qasc_with_ir_test

  • कॉन्फ़िगरेशन विवरण : QASC एक प्रश्न-उत्तर डेटासेट है जो वाक्य रचना पर ध्यान केंद्रित करता है। इसमें ग्रेड स्कूल साइंस के बारे में 8-तरफ़ा बहुविकल्पीय प्रश्न होते हैं, और यह 17M वाक्यों के संग्रह के साथ आता है। इस संस्करण में अतिरिक्त साक्ष्य के रूप में सूचना पुनर्प्राप्ति प्रणाली के माध्यम से प्राप्त किए गए पैराग्राफ शामिल हैं।

  • डाउनलोड आकार : 16.95 MiB

  • डेटासेट का आकार : 17.30 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 920
'train' 8,134
'validation' 926
  • उद्धरण :
@inproceedings{khot2020qasc,
    title={Qasc: A dataset for question answering via sentence composition},
    author={Khot, Tushar and Clark, Peter and Guerquin, Michal and Jansen, Peter and Sabharwal, Ashish},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    volume={34},
    number={05},
    pages={8082--8090},
    year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/quoref

  • कॉन्फ़िग विवरण : यह डेटासेट रीडिंग कॉम्प्रिहेंशन सिस्टम की कोरफेरेंशियल रीज़निंग क्षमता का परीक्षण करता है। इस स्पैन-चयन बेंचमार्क में विकिपीडिया के पैराग्राफों पर प्रश्न हैं, प्रश्नों के उत्तर देने के लिए पैराग्राफों में उपयुक्त स्पैन (एस) का चयन करने से पहले एक सिस्टम को हार्ड कोरेफेरेंस को हल करना चाहिए।

  • डाउनलोड आकार : 51.43 MiB

  • डेटासेट का आकार : 52.29 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 22,265
'validation' 2,768
  • उद्धरण :
@inproceedings{dasigi-etal-2019-quoref,
    title = "{Q}uoref: A Reading Comprehension Dataset with Questions Requiring Coreferential Reasoning",
    author = "Dasigi, Pradeep  and
      Liu, Nelson F.  and
      Marasovi{'c}, Ana  and
      Smith, Noah A.  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1606",
    doi = "10.18653/v1/D19-1606",
    pages = "5925--5932",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/रेस_स्ट्रिंग

  • कॉन्फ़िगरेशन विवरण : रेस एक बड़े पैमाने पर पढ़ने की समझ का डेटासेट है। डेटासेट चीन में अंग्रेजी परीक्षाओं से एकत्र किया गया है, जो मिडिल स्कूल और हाई स्कूल के छात्रों के लिए डिज़ाइन किए गए हैं। मशीन की समझ के लिए डेटासेट को प्रशिक्षण और परीक्षण सेट के रूप में परोसा जा सकता है।

  • डाउनलोड का आकार : 167.97 MiB

  • डेटासेट का आकार : 171.23 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 4,934
'train' 87,863
'validation' 4,887
  • उद्धरण :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/रेस_स्ट्रिंग_देव

  • कॉन्फ़िगरेशन विवरण : रेस एक बड़े पैमाने पर पढ़ने की समझ का डेटासेट है। डेटासेट चीन में अंग्रेजी परीक्षाओं से एकत्र किया गया है, जो मिडिल स्कूल और हाई स्कूल के छात्रों के लिए डिज़ाइन किए गए हैं। मशीन की समझ के लिए डेटासेट को प्रशिक्षण और परीक्षण सेट के रूप में परोसा जा सकता है।

  • डाउनलोड का आकार : 167.97 MiB

  • डेटासेट का आकार : 171.23 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 4,934
'train' 87,863
'validation' 4,887
  • उद्धरण :
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/ropes

  • कॉन्फ़िगरेशन विवरण : यह डेटासेट पाठ के एक अंश से नई स्थिति में ज्ञान को लागू करने के लिए सिस्टम की क्षमता का परीक्षण करता है। एक प्रणाली को एक पृष्ठभूमि मार्ग प्रस्तुत किया जाता है जिसमें एक कारण या गुणात्मक संबंध होता है (उदाहरण के लिए, "पशु परागणकर्ता फूलों में निषेचन की दक्षता बढ़ाते हैं"), एक नई स्थिति जो इस पृष्ठभूमि का उपयोग करती है, और ऐसे प्रश्न जिनमें संबंधों के प्रभावों के बारे में तर्क की आवश्यकता होती है स्थिति के संदर्भ में पृष्ठभूमि मार्ग।

  • डाउनलोड आकार : 12.91 MiB

  • डेटासेट का आकार : 13.35 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 10,924
'validation' 1,688
  • उद्धरण :
@inproceedings{lin-etal-2019-reasoning,
    title = "Reasoning Over Paragraph Effects in Situations",
    author = "Lin, Kevin  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5808",
    doi = "10.18653/v1/D19-5808",
    pages = "58--62",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/social_iqa

  • कॉन्फिग विवरण : यह सामाजिक स्थितियों के बारे में सामान्य ज्ञान तर्क के लिए एक बड़े पैमाने का बेंचमार्क है। सोशल आईक्यूए में विभिन्न प्रकार की रोजमर्रा की स्थितियों में भावनात्मक और सामाजिक बुद्धिमत्ता की जांच के लिए बहुविकल्पीय प्रश्न होते हैं। क्राउडसोर्सिंग के माध्यम से, सामाजिक अंतःक्रियाओं के बारे में सही और गलत उत्तरों के साथ सामान्य ज्ञान के प्रश्न एकत्र किए जाते हैं, एक नए ढाँचे का उपयोग करके जो श्रमिकों को एक अलग लेकिन संबंधित प्रश्न का सही उत्तर प्रदान करने के लिए कहकर गलत उत्तरों में शैलीगत कलाकृतियों को कम करता है।

  • डाउनलोड आकार : 7.08 MiB

  • डेटासेट का आकार : 8.22 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 33,410
'validation' 1,954
  • उद्धरण :
@inproceedings{sap-etal-2019-social,
    title = "Social {IQ}a: Commonsense Reasoning about Social Interactions",
    author = "Sap, Maarten  and
      Rashkin, Hannah  and
      Chen, Derek  and
      Le Bras, Ronan  and
      Choi, Yejin",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-1454",
    doi = "10.18653/v1/D19-1454",
    pages = "4463--4473",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

एकीकृत_क्यूए/स्क्वाड1_1

  • कॉन्फिग विवरण : यह एक रीडिंग कॉम्प्रिहेंशन डेटासेट है जिसमें विकिपीडिया लेखों के एक सेट पर क्राउडवर्कर्स द्वारा पूछे गए प्रश्न शामिल हैं, जहाँ प्रत्येक प्रश्न का उत्तर संबंधित पठन मार्ग से पाठ का एक खंड है।

  • डाउनलोड आकार : 80.62 MiB

  • डेटासेट का आकार : 83.99 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 87,514
'validation' 10,570
  • उद्धरण :
@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/squad2

  • कॉन्फिग विवरण : यह डेटासेट मूल स्टैनफोर्ड क्वेश्चन आंसरिंग डेटासेट (SQuAD) डेटासेट को क्राउडवर्कर्स द्वारा प्रतिकूल रूप से लिखे गए अउत्तरनीय प्रश्नों के साथ जोड़ता है ताकि वे उत्तर देने योग्य लोगों के समान दिखें।

  • डाउनलोड आकार : 116.56 MiB

  • डेटासेट का आकार : 121.43 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 130,149
'validation' 11,873
  • उद्धरण :
@inproceedings{rajpurkar-etal-2018-know,
    title = "Know What You Don{'}t Know: Unanswerable Questions for {SQ}u{AD}",
    author = "Rajpurkar, Pranav  and
      Jia, Robin  and
      Liang, Percy",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-2124",
    doi = "10.18653/v1/P18-2124",
    pages = "784--789",
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

यूनिफाइड_क्यूए/विनोग्रांडे_एल

  • कॉन्फ़िगरेशन विवरण : यह डेटासेट मूल विनोग्रैड स्कीमा चैलेंज डिज़ाइन से प्रेरित है, लेकिन डेटासेट के पैमाने और कठोरता दोनों को बेहतर बनाने के लिए समायोजित किया गया है। डेटासेट निर्माण के प्रमुख चरणों में (1) एक सावधानीपूर्वक डिज़ाइन की गई क्राउडसोर्सिंग प्रक्रिया शामिल है, जिसके बाद (2) एक उपन्यास AfLite एल्गोरिथ्म का उपयोग करके व्यवस्थित पूर्वाग्रह में कमी आती है जो मानव-पता लगाने योग्य शब्द संघों को मशीन-पता लगाने योग्य एम्बेडिंग संघों के लिए सामान्यीकृत करता है। विभिन्न आकारों के प्रशिक्षण सेट प्रदान किए जाते हैं। यह सेट आकार l के अनुरूप है।

  • डाउनलोड आकार : 1.49 MiB

  • डेटासेट का आकार : 1.83 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 10,234
'validation' 1,267
  • उद्धरण :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_m

  • कॉन्फ़िगरेशन विवरण : यह डेटासेट मूल विनोग्रैड स्कीमा चैलेंज डिज़ाइन से प्रेरित है, लेकिन डेटासेट के पैमाने और कठोरता दोनों को बेहतर बनाने के लिए समायोजित किया गया है। डेटासेट निर्माण के प्रमुख चरणों में (1) एक सावधानीपूर्वक डिज़ाइन की गई क्राउडसोर्सिंग प्रक्रिया शामिल है, जिसके बाद (2) एक उपन्यास AfLite एल्गोरिथ्म का उपयोग करके व्यवस्थित पूर्वाग्रह में कमी आती है जो मानव-पता लगाने योग्य शब्द संघों को मशीन-पता लगाने योग्य एम्बेडिंग संघों के लिए सामान्यीकृत करता है। विभिन्न आकारों के प्रशिक्षण सेट प्रदान किए जाते हैं। यह सेट आकार m के अनुरूप है।

  • डाउनलोड आकार : 507.46 KiB

  • डेटासेट का आकार : 623.15 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'train' 2,558
'validation' 1,267
  • उद्धरण :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."

unified_qa/winogrande_s

  • कॉन्फ़िगरेशन विवरण : यह डेटासेट मूल विनोग्रैड स्कीमा चैलेंज डिज़ाइन से प्रेरित है, लेकिन डेटासेट के पैमाने और कठोरता दोनों को बेहतर बनाने के लिए समायोजित किया गया है। डेटासेट निर्माण के प्रमुख चरणों में (1) एक सावधानीपूर्वक डिज़ाइन की गई क्राउडसोर्सिंग प्रक्रिया शामिल है, जिसके बाद (2) एक उपन्यास AfLite एल्गोरिथ्म का उपयोग करके व्यवस्थित पूर्वाग्रह में कमी आती है जो मानव-पता लगाने योग्य शब्द संघों को मशीन-पता लगाने योग्य एम्बेडिंग संघों के लिए सामान्यीकृत करता है। विभिन्न आकारों के प्रशिक्षण सेट प्रदान किए जाते हैं। यह सेट आकार s से मेल खाता है।

  • डाउनलोड आकार : 479.24 KiB

  • डेटासेट का आकार : 590.47 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,767
'train' 640
'validation' 1,267
  • उद्धरण :
@inproceedings{sakaguchi2020winogrande,
  title={Winogrande: An adversarial winograd schema challenge at scale},
  author={Sakaguchi, Keisuke and Le Bras, Ronan and Bhagavatula, Chandra and Choi, Yejin},
  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
  volume={34},
  number={05},
  pages={8732--8740},
  year={2020}
}

@inproceedings{khashabi-etal-2020-unifiedqa,
    title = "{UNIFIEDQA}: Crossing Format Boundaries with a Single {QA} System",
    author = "Khashabi, Daniel  and
      Min, Sewon  and
      Khot, Tushar  and
      Sabharwal, Ashish  and
      Tafjord, Oyvind  and
      Clark, Peter  and
      Hajishirzi, Hannaneh",
    booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2020",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.findings-emnlp.171",
    doi = "10.18653/v1/2020.findings-emnlp.171",
    pages = "1896--1907",
}

Note that each UnifiedQA dataset has its own citation. Please see the source to
see the correct citation for each contained dataset."