ओपनबुकका

  • विवरण :

डेटासेट में 5,957 4-तरफ़ा बहुविकल्पीय प्रश्न हैं। इसके अतिरिक्त, वे 5,167 भीड़-स्रोत सामान्य ज्ञान तथ्य, और ट्रेन/देव/परीक्षण प्रश्नों का एक विस्तारित संस्करण प्रदान करते हैं जहां प्रत्येक प्रश्न अपने मूल मूल तथ्य, एक मानव सटीकता स्कोर, एक स्पष्टता स्कोर और एक अज्ञात क्राउड-वर्कर से जुड़ा होता है। पहचान।

विभाजित करना उदाहरण
'test' 500
'train' 4,957
'validation' 500
  • फ़ीचर संरचना :
FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'clarity': float32,
    'fact1': Text(shape=(), dtype=string),
    'humanScore': float32,
    'question': FeaturesDict({
        'choice_A': Text(shape=(), dtype=string),
        'choice_B': Text(shape=(), dtype=string),
        'choice_C': Text(shape=(), dtype=string),
        'choice_D': Text(shape=(), dtype=string),
        'stem': Text(shape=(), dtype=string),
    }),
    'turkIdAnonymized': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
उत्तर कुंजी क्लासलेबल int64
स्पष्टता टेन्सर फ्लोट32
तथ्य1 मूलपाठ डोरी
ह्यूमनस्कोर टेन्सर फ्लोट32
प्रश्न विशेषताएं डिक्ट
प्रश्न/विकल्प_A मूलपाठ डोरी
प्रश्न/पसंद_B मूलपाठ डोरी
प्रश्न/विकल्प_C मूलपाठ डोरी
प्रश्न/विकल्प_D मूलपाठ डोरी
प्रश्न/तना मूलपाठ डोरी
turkIdAnonymized मूलपाठ डोरी
  • उद्धरण :
@article{mihaylov2018can,
  title={Can a suit of armor conduct electricity? a new dataset for open book question answering},
  author={Mihaylov, Todor and Clark, Peter and Khot, Tushar and Sabharwal, Ashish},
  journal={arXiv preprint arXiv:1809.02789},
  year={2018}
}