सुपर गोंद

  • विवरण :

SuperGLUE ( https://super.gluebenchmark.com/ ) एक नया बेंचमार्क है जिसे GLUE के बाद स्टाइल किया गया है, जिसमें भाषा समझने के अधिक कठिन कार्यों, बेहतर संसाधनों और एक नए सार्वजनिक लीडरबोर्ड का एक नया सेट है।

super_glue/boolq (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फिग विवरण : बूलक्यू (बूलियन प्रश्न, क्लार्क और अन्य, 2019ए) एक क्यूए कार्य है जहां प्रत्येक उदाहरण में एक छोटा गद्यांश होता है और गद्यांश के बारे में हां/नहीं प्रश्न होता है। प्रश्न गुमनाम रूप से और Google खोज इंजन के उपयोगकर्ताओं द्वारा अवांछित रूप से प्रदान किए जाते हैं, और बाद में उत्तर वाले विकिपीडिया लेख के एक पैराग्राफ के साथ जोड़े जाते हैं। मूल कार्य के बाद, हम सटीकता के साथ मूल्यांकन करते हैं।

  • मुखपृष्ठ : https://github.com/google-research-datasets/boolean-questions

  • डाउनलोड आकार : 3.93 MiB

  • डेटासेट का आकार : 10.75 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 3,245
'train' 9,427
'validation' 3,270
  • फ़ीचर संरचना :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
idx टेन्सर int32
लेबल क्लासलेबल int64
रास्ता मूलपाठ डोरी
प्रश्न मूलपाठ डोरी
  • उद्धरण :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू/सीबी

  • कॉन्फ़िगरेशन विवरण : कमिटमेंटबैंक (डी मार्नेफ़े एट अल।, 2019) लघु ग्रंथों का एक कोष है जिसमें कम से कम एक वाक्य में एक एम्बेडेड खंड होता है। इनमें से प्रत्येक एम्बेडेड क्लॉज को उस डिग्री के साथ एनोटेट किया गया है जिससे हम उम्मीद करते हैं कि जिस व्यक्ति ने टेक्स्ट लिखा है वह क्लॉज की सच्चाई के लिए प्रतिबद्ध है। परिणामी कार्य को वॉल स्ट्रीट जर्नल, ब्रिटिश नेशनल कॉर्पस से कथा, और स्विचबोर्ड से तैयार किए गए उदाहरणों पर तीन-श्रेणी के शाब्दिक प्रवेश के रूप में तैयार किया गया है। प्रत्येक उदाहरण में एक आधार होता है जिसमें एक एम्बेडेड क्लॉज होता है और संबंधित परिकल्पना उस क्लॉज का निष्कर्षण होता है। हम डेटा के एक सबसेट का उपयोग करते हैं जिसमें 0.85 से ऊपर इंटर-एनोटेटर समझौता था। डेटा असंतुलित है (अपेक्षाकृत कम तटस्थ उदाहरण), इसलिए हम सटीकता और F1 का उपयोग करके मूल्यांकन करते हैं, जहां बहु-वर्ग F1 के लिए हम प्रति वर्ग F1 के भारित औसत की गणना करते हैं।

  • होमपेज : https://github.com/mcdm/CommitmentBank

  • डाउनलोड आकार : 73.71 KiB

  • डेटासेट का आकार : 229.28 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 250
'train' 250
'validation' 56
  • फ़ीचर संरचना :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
परिकल्पना मूलपाठ डोरी
idx टेन्सर int32
लेबल क्लासलेबल int64
आधार मूलपाठ डोरी
  • उद्धरण :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू/कोपा

  • कॉन्फ़िग विवरण : द चॉइस ऑफ़ प्लॉसिबल अल्टरनेटिव्स (COPA, Roemmele et al., 2011) डेटासेट एक कारणात्मक तर्क कार्य है जिसमें एक सिस्टम को एक आधार वाक्य और दो संभावित विकल्प दिए जाते हैं। सिस्टम को उस विकल्प को चुनना चाहिए जिसका आधार के साथ अधिक प्रशंसनीय कारण संबंध है। विकल्पों के निर्माण के लिए उपयोग की जाने वाली विधि यह सुनिश्चित करती है कि कार्य को हल करने के लिए तर्कपूर्ण तर्क की आवश्यकता है। उदाहरण या तो वैकल्पिक संभावित कारणों या आधार वाक्य के वैकल्पिक संभावित प्रभावों से निपटते हैं, साथ ही मॉडल के लिए दो उदाहरण प्रकारों के बीच एक साधारण प्रश्न के साथ। सभी उदाहरण दस्तकारी हैं और ऑनलाइन ब्लॉग और फोटोग्राफी से संबंधित विश्वकोश के विषयों पर ध्यान केंद्रित करते हैं। लेखकों की सिफारिश के बाद, हम सटीकता का उपयोग करके मूल्यांकन करते हैं।

  • होमपेज : http://people.ict.usc.edu/~gordon/copa.html

  • डाउनलोड का आकार : 42.96 KiB

  • डेटासेट का आकार : 196.00 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 500
'train' 400
'validation' 100
  • फ़ीचर संरचना :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
पसंद1 मूलपाठ डोरी
पसंद2 मूलपाठ डोरी
idx टेन्सर int32
लेबल क्लासलेबल int64
आधार मूलपाठ डोरी
प्रश्न मूलपाठ डोरी
  • उद्धरण :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • कॉन्फ़िगरेशन विवरण : मल्टी-सेंटेंस रीडिंग कॉम्प्रिहेंशन डेटासेट (MultiRC, Khashabi et al., 2018) एक सही/गलत सवाल-जवाब का काम है। प्रत्येक उदाहरण में एक संदर्भ अनुच्छेद, उस अनुच्छेद के बारे में एक प्रश्न, और उस प्रश्न के संभावित उत्तरों की एक सूची होती है जिसे सही या गलत के रूप में लेबल किया जाना चाहिए। प्रश्न-उत्तर (क्यूए) कई डेटासेट के साथ एक लोकप्रिय समस्या है। हम कई वांछनीय गुणों के कारण मल्टीआरसी का उपयोग करते हैं: (i) प्रत्येक प्रश्न के कई संभावित सही उत्तर हो सकते हैं, इसलिए प्रत्येक प्रश्न-उत्तर जोड़ी का मूल्यांकन अन्य जोड़ियों से स्वतंत्र होना चाहिए, (ii) प्रश्नों को इस तरह से डिज़ाइन किया गया है कि प्रत्येक प्रश्न का उत्तर देने की आवश्यकता है कई संदर्भ वाक्यों से तथ्य खींचना, और (iii) प्रश्न-उत्तर जोड़ी प्रारूप स्पैन-आधारित एक्सट्रैक्टिव QA की तुलना में अन्य SuperGLUE कार्यों के API से अधिक निकटता से मेल खाता है। पैराग्राफ सात डोमेन से तैयार किए गए हैं जिनमें समाचार, कथा और ऐतिहासिक पाठ शामिल हैं।

  • होमपेज : https://cogcomp.org/multirc/

  • डाउनलोड आकार : 1.06 MiB

  • डेटासेट का आकार : 70.39 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 9,693
'train' 27,243
'validation' 4,848
  • फ़ीचर संरचना :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
उत्तर मूलपाठ डोरी
idx विशेषताएं डिक्ट
आईडीएक्स / उत्तर टेन्सर int32
आईडीएक्स/पैराग्राफ टेन्सर int32
आईडीएक्स/प्रश्न टेन्सर int32
लेबल क्लासलेबल int64
अनुच्छेद मूलपाठ डोरी
प्रश्न मूलपाठ डोरी
  • उद्धरण :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू/रिकॉर्ड

  • कॉन्फिग विवरण : (रीडिंग कॉम्प्रिहेंशन विद कॉमन्सेंस रीजनिंग डेटासेट, झांग एट अल।, 2018) एक बहु-विकल्प क्यूए कार्य है। प्रत्येक उदाहरण में एक समाचार लेख और उस लेख के बारे में एक क्लोज़-शैली का प्रश्न होता है जिसमें एक इकाई को छिपाया जाता है। सिस्टम को प्रदान किए गए मार्ग में संभावित संस्थाओं की दी गई सूची से नकाबपोश इकाई की भविष्यवाणी करनी चाहिए, जहां एक ही इकाई को कई अलग-अलग सतह रूपों का उपयोग करके व्यक्त किया जा सकता है, जिनमें से सभी को सही माना जाता है। लेख सीएनएन और डेली मेल से लिए गए हैं। मूल कार्य के बाद, हम अधिकतम (सभी उल्लेखों पर) टोकन-स्तर F1 और सटीक मिलान (EM) के साथ मूल्यांकन करते हैं।

  • होमपेज : https://sheng-z.github.io/ReCoRD-explorer/

  • डाउनलोड आकार : 49.36 MiB

  • डेटासेट का आकार : 166.40 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • विभाजन :

विभाजित करना उदाहरण
'test' 10,000
'train' 100,730
'validation' 10,000
  • फ़ीचर संरचना :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
जवाब अनुक्रम (पाठ) (कोई भी नहीं,) डोरी
संस्थाओं अनुक्रम (पाठ) (कोई भी नहीं,) डोरी
idx विशेषताएं डिक्ट
आईडीएक्स/पैसेज टेन्सर int32
आईडीएक्स/क्वेरी टेन्सर int32
रास्ता मूलपाठ डोरी
सवाल मूलपाठ डोरी
  • उद्धरण :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू/आरटीई

  • कॉन्फिग विवरण : रिकॉग्नाइजिंग टेक्स्टुअल एनटेलमेंट (आरटीई) डेटासेट टेक्स्टुअल एंटेलमेंट पर वार्षिक प्रतियोगिताओं की एक श्रृंखला से आते हैं, यह भविष्यवाणी करने की समस्या है कि क्या किसी दिए गए आधार वाक्य में दिए गए परिकल्पना वाक्य (जिसे प्राकृतिक भाषा अनुमान, एनएलआई भी कहा जाता है) शामिल है। RTE को पहले GLUE में शामिल किया गया था, और हम पहले की तरह ही डेटा और प्रारूप का उपयोग करते हैं: हम RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al.) से डेटा मर्ज करते हैं। 2007), और RTE5 (बेंटिवोगली एट अल।, 2009)। सभी डेटासेट संयुक्त होते हैं और दो-श्रेणी के वर्गीकरण में परिवर्तित होते हैं: प्रवेश और not_entailment। सभी GLUE कार्यों में से, RTE उन लोगों में से था, जो GLUE के लॉन्च के समय लगभग यादृच्छिक-मौका प्रदर्शन (~ 56%) से 85% सटीकता (लियू एट अल।, 2019c) के पास छलांग लगाकर सबसे अधिक लाभान्वित हुए। लिखने का समय। मानव प्रदर्शन के संबंध में आठ अंकों के अंतर को देखते हुए, कार्य अभी तक मशीनों द्वारा हल नहीं किया गया है, और हम उम्मीद करते हैं कि शेष अंतर को बंद करना मुश्किल होगा।

  • होमपेज : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • डाउनलोड आकार : 733.32 KiB

  • डेटासेट का आकार : 2.15 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 3,000
'train' 2,490
'validation' 277
  • फ़ीचर संरचना :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
परिकल्पना मूलपाठ डोरी
idx टेन्सर int32
लेबल क्लासलेबल int64
आधार मूलपाठ डोरी
  • उद्धरण :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू/विक

  • कॉन्फिग विवरण : वर्ड-इन-कॉन्टेक्स्ट (WiC, Pilehvar and Camacho-Collados, 2019) डेटासेट वाक्य जोड़े पर बाइनरी वर्गीकरण के रूप में एक शब्द अर्थ प्रत्यय भेद कार्य कास्ट का समर्थन करता है। दो वाक्यों और दोनों वाक्यों में प्रकट होने वाले एक अस्पष्ट (अर्थ-संदिग्ध) शब्द को देखते हुए, कार्य यह निर्धारित करना है कि शब्द दोनों वाक्यों में समान अर्थ के साथ प्रयोग किया जाता है या नहीं। वाक्य वर्डनेट (मिलर, 1995), वर्बनेट (शूलर, 2005) और विक्षनरी से लिए गए हैं। हम मूल कार्य का पालन करते हैं और सटीकता का उपयोग करके मूल्यांकन करते हैं।

  • होमपेज : https://pilehvar.github.io/wic/

  • डाउनलोड आकार : 386.93 KiB

  • डेटासेट का आकार : 1.67 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,400
'train' 5,428
'validation' 638
  • फ़ीचर संरचना :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
अंत1 टेन्सर int32
end2 टेन्सर int32
idx टेन्सर int32
लेबल क्लासलेबल int64
वाक्य1 मूलपाठ डोरी
वाक्य2 मूलपाठ डोरी
start1 टेन्सर int32
start2 टेन्सर int32
शब्द मूलपाठ डोरी
  • उद्धरण :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू/wsc

  • कॉन्फिग विवरण : विनोग्रैड स्कीमा चैलेंज (डब्ल्यूएससी, लेवेस्क एट अल।, 2012) एक पठन बोध कार्य है जिसमें एक प्रणाली को एक सर्वनाम के साथ एक वाक्य पढ़ना चाहिए और विकल्पों की सूची से उस सर्वनाम के संदर्भ का चयन करना चाहिए। इस कार्य की कठिनाई और हेडरूम अभी भी बाकी है, इसे देखते हुए, हमने WSC को SuperGLUE में शामिल किया है और डेटासेट को इसके मूल रूप में फिर से तैयार किया है। कार्य को एक द्विआधारी वर्गीकरण समस्या के रूप में रखा गया है, जैसा कि एन-बहुविकल्पी के विपरीत, एक वाक्य के भीतर मूल लिंक को समझने की मॉडल की क्षमता को अलग करने के लिए, जो कि कई अन्य रणनीतियों के विपरीत है, जो बहुविकल्पी स्थितियों में चलन में आ सकते हैं। इसे ध्यान में रखते हुए, हम सत्यापन सेट में 65% नकारात्मक बहुसंख्यक वर्ग के साथ एक विभाजन बनाते हैं, जो छिपे हुए परीक्षण सेट के वितरण और प्रशिक्षण सेट में 52% नकारात्मक वर्ग को दर्शाता है। प्रशिक्षण और सत्यापन उदाहरण मूल विनोग्रैड स्कीमा डेटासेट (लेवेस्क एट अल।, 2012) से लिए गए हैं, साथ ही साथ संबद्ध संगठन कॉमन्सेंस रीजनिंग द्वारा वितरित किए गए हैं। परीक्षण के उदाहरण काल्पनिक किताबों से लिए गए हैं और मूल डेटासेट के लेखकों द्वारा हमारे साथ साझा किए गए हैं। पहले, WSC का एक संस्करण एनएलआई के रूप में पुनर्गठित होता है जैसा कि ग्लू में शामिल है, जिसे डब्ल्यूएनएलआई के रूप में जाना जाता है। WNLI पर कोई ठोस प्रगति नहीं हुई, कई प्रस्तुतियाँ केवल बहुमत वर्ग की भविष्यवाणियों को प्रस्तुत करने का विकल्प चुनती हैं। एक प्रतिकूल ट्रेन/देव विभाजन के कारण WNLI को विशेष रूप से कठिन बना दिया गया था: प्रशिक्षण सेट में दिखाई देने वाले परिसर वाक्य कभी-कभी विकास सेट में एक अलग परिकल्पना और फ़्लिप किए गए लेबल के साथ दिखाई देते हैं। यदि एक प्रणाली ने प्रशिक्षण सेट को अर्थपूर्ण सामान्यीकरण के बिना याद किया, जो कि प्रशिक्षण सेट के छोटे आकार के कारण आसान था, तो यह विकास सेट पर मौके से बहुत कम प्रदर्शन कर सकता था। हम WSC के SuperGLUE संस्करण में इस प्रतिकूल डिज़ाइन को यह सुनिश्चित करके हटाते हैं कि प्रशिक्षण, सत्यापन और परीक्षण सेट के बीच कोई वाक्य साझा नहीं किया गया है।

हालाँकि, सत्यापन और परीक्षण सेट अलग-अलग डोमेन से आते हैं, सत्यापन सेट में अस्पष्ट उदाहरण होते हैं जैसे कि एक गैर-संज्ञा वाक्यांश शब्द को बदलने से वाक्य में मूल निर्भरता बदल जाएगी। परीक्षण सेट में केवल अधिक सरल उदाहरण होते हैं, जिनमें उच्च संख्या में संज्ञा वाक्यांश होते हैं (और इस प्रकार मॉडल के लिए अधिक विकल्प), लेकिन कम से कम कोई अस्पष्टता नहीं होती है।

विभाजित करना उदाहरण
'test' 146
'train' 554
'validation' 104
  • फ़ीचर संरचना :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
idx टेन्सर int32
लेबल क्लासलेबल int64
span1_index टेन्सर int32
span1_text मूलपाठ डोरी
span2_index टेन्सर int32
span2_text मूलपाठ डोरी
मूलपाठ मूलपाठ डोरी
  • उद्धरण :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू/wsc.fixed

  • कॉन्फिग विवरण : विनोग्रैड स्कीमा चैलेंज (डब्ल्यूएससी, लेवेस्क एट अल।, 2012) एक पठन बोध कार्य है जिसमें एक प्रणाली को एक सर्वनाम के साथ एक वाक्य पढ़ना चाहिए और विकल्पों की सूची से उस सर्वनाम के संदर्भ का चयन करना चाहिए। इस कार्य की कठिनाई और हेडरूम अभी भी बाकी है, इसे देखते हुए, हमने WSC को SuperGLUE में शामिल किया है और डेटासेट को इसके मूल रूप में फिर से तैयार किया है। कार्य को एक द्विआधारी वर्गीकरण समस्या के रूप में रखा गया है, जैसा कि एन-बहुविकल्पी के विपरीत, एक वाक्य के भीतर मूल लिंक को समझने की मॉडल की क्षमता को अलग करने के लिए, जो कि कई अन्य रणनीतियों के विपरीत है, जो बहुविकल्पी स्थितियों में चलन में आ सकते हैं। इसे ध्यान में रखते हुए, हम सत्यापन सेट में 65% नकारात्मक बहुसंख्यक वर्ग के साथ एक विभाजन बनाते हैं, जो छिपे हुए परीक्षण सेट के वितरण और प्रशिक्षण सेट में 52% नकारात्मक वर्ग को दर्शाता है। प्रशिक्षण और सत्यापन उदाहरण मूल विनोग्रैड स्कीमा डेटासेट (लेवेस्क एट अल।, 2012) से लिए गए हैं, साथ ही साथ संबद्ध संगठन कॉमन्सेंस रीजनिंग द्वारा वितरित किए गए हैं। परीक्षण के उदाहरण काल्पनिक किताबों से लिए गए हैं और मूल डेटासेट के लेखकों द्वारा हमारे साथ साझा किए गए हैं। पहले, WSC का एक संस्करण एनएलआई के रूप में पुनर्गठित होता है जैसा कि ग्लू में शामिल है, जिसे डब्ल्यूएनएलआई के रूप में जाना जाता है। WNLI पर कोई ठोस प्रगति नहीं हुई, कई प्रस्तुतियाँ केवल बहुमत वर्ग की भविष्यवाणियों को प्रस्तुत करने का विकल्प चुनती हैं। एक प्रतिकूल ट्रेन/देव विभाजन के कारण WNLI को विशेष रूप से कठिन बना दिया गया था: प्रशिक्षण सेट में दिखाई देने वाले परिसर वाक्य कभी-कभी विकास सेट में एक अलग परिकल्पना और फ़्लिप किए गए लेबल के साथ दिखाई देते हैं। यदि एक प्रणाली ने प्रशिक्षण सेट को अर्थपूर्ण सामान्यीकरण के बिना याद किया, जो कि प्रशिक्षण सेट के छोटे आकार के कारण आसान था, तो यह विकास सेट पर मौके से बहुत कम प्रदर्शन कर सकता था। हम WSC के SuperGLUE संस्करण में इस प्रतिकूल डिज़ाइन को यह सुनिश्चित करके हटाते हैं कि प्रशिक्षण, सत्यापन और परीक्षण सेट के बीच कोई वाक्य साझा नहीं किया गया है।

हालाँकि, सत्यापन और परीक्षण सेट अलग-अलग डोमेन से आते हैं, सत्यापन सेट में अस्पष्ट उदाहरण होते हैं जैसे कि एक गैर-संज्ञा वाक्यांश शब्द को बदलने से वाक्य में मूल निर्भरता बदल जाएगी। परीक्षण सेट में केवल अधिक सरल उदाहरण होते हैं, जिनमें उच्च संख्या में संज्ञा वाक्यांश होते हैं (और इस प्रकार मॉडल के लिए अधिक विकल्प), लेकिन कम से कम कोई अस्पष्टता नहीं होती है।

यह संस्करण उन समस्याओं को ठीक करता है जहां स्पैन वास्तव में पाठ के सबस्ट्रिंग नहीं हैं।

विभाजित करना उदाहरण
'test' 146
'train' 554
'validation' 104
  • फ़ीचर संरचना :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
idx टेन्सर int32
लेबल क्लासलेबल int64
span1_index टेन्सर int32
span1_text मूलपाठ डोरी
span2_index टेन्सर int32
span2_text मूलपाठ डोरी
मूलपाठ मूलपाठ डोरी
  • उद्धरण :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू/एक्सबी

  • कॉन्फ़िगरेशन विवरण : एक विशेषज्ञ-निर्मित, डायग्नोस्टिक डेटासेट जो स्वचालित रूप से भाषाई, सामान्य ज्ञान और विश्व ज्ञान की एक विस्तृत श्रृंखला के लिए मॉडल का परीक्षण करता है। इस व्यापक-कवरेज डायग्नोस्टिक में प्रत्येक उदाहरण एक वाक्य जोड़ी है जिसे तीन-तरफ़ा प्रवेश संबंध (एंटेलमेंट, न्यूट्रल, या विरोधाभास) के साथ लेबल किया गया है और लेबल के साथ टैग किया गया है जो दो वाक्यों के बीच संबंध को दर्शाने वाली घटनाओं को इंगित करता है। GLUE लीडरबोर्ड में सबमिशन के लिए डायग्नोस्टिक डेटासेट पर सबमिशन के मल्टीएनएलआई क्लासिफायर से भविष्यवाणियों को शामिल करना आवश्यक है, और परिणामों के विश्लेषण मुख्य लीडरबोर्ड के साथ दिखाए गए थे। चूंकि यह व्यापक कवरेज डायग्नोस्टिक कार्य शीर्ष मॉडलों के लिए कठिन साबित हुआ है, इसलिए हम इसे सुपरग्लू में बनाए रखते हैं। हालाँकि, चूंकि MultiNLI SuperGLUE का हिस्सा नहीं है, इसलिए हम विरोधाभास और तटस्थ को एक एकल not_entailment लेबल में समाप्‍त करते हैं, और अनुरोध करते हैं कि सबमिशन में RTE कार्य के लिए उपयोग किए गए मॉडल से परिणामी सेट पर भविष्यवाणियां शामिल हों।

  • होमपेज : https://gluebenchmark.com/diagnostics

  • डाउनलोड आकार : 33.15 KiB

  • डेटासेट का आकार : 290.53 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,104
  • फ़ीचर संरचना :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
idx टेन्सर int32
लेबल क्लासलेबल int64
वाक्य1 मूलपाठ डोरी
वाक्य2 मूलपाठ डोरी
  • उद्धरण :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू/एक्सजी

  • Config विवरण : Winogender को कोरेफेरेंस रेज़ोल्यूशन सिस्टम में लिंग पूर्वाग्रह को मापने के लिए डिज़ाइन किया गया है। हम डायवर्स नेचुरल लैंग्वेज इन्वेंशन कलेक्शन (DNC; पोलीक एट अल।, 2018) संस्करण का उपयोग करते हैं, जो कि विनोगेंडर को टेक्स्टुअल एंटेलमेंट टास्क के रूप में प्रस्तुत करता है। प्रत्येक उदाहरण में पुरुष या महिला सर्वनाम के साथ एक आधार वाक्य होता है और सर्वनाम के संभावित पूर्ववर्ती देने वाली परिकल्पना होती है। उदाहरण न्यूनतम जोड़े में होते हैं, जहां एक उदाहरण और उसकी जोड़ी के बीच एकमात्र अंतर आधारवाक्य में सर्वनाम का लिंग है। विनोगेंडर पर प्रदर्शन को सटीकता और लिंग समानता स्कोर दोनों के साथ मापा जाता है: न्यूनतम जोड़े का प्रतिशत जिसके लिए पूर्वानुमान समान हैं। हम ध्यान देते हैं कि एक प्रणाली सभी उदाहरणों के लिए समान वर्ग का अनुमान लगाकर तुच्छ रूप से एक पूर्ण लिंग समानता स्कोर प्राप्त कर सकती है, इसलिए एक उच्च लिंग समानता स्कोर तब तक अर्थहीन है जब तक कि उच्च सटीकता के साथ न हो। लिंग पूर्वाग्रह के नैदानिक ​​परीक्षण के रूप में, हम स्कीमा को उच्च सकारात्मक भविष्य कहनेवाला मूल्य और कम नकारात्मक भविष्य कहनेवाला मूल्य के रूप में देखते हैं; अर्थात्, वे एक प्रणाली में लैंगिक पूर्वाग्रह की उपस्थिति को प्रदर्शित कर सकते हैं, लेकिन इसकी अनुपस्थिति को सिद्ध नहीं कर सकते।

  • होमपेज : https://github.com/rudinger/winogender-schemas

  • डाउनलोड आकार : 10.17 KiB

  • डेटासेट का आकार : 69.75 KiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 356
  • फ़ीचर संरचना :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
परिकल्पना मूलपाठ डोरी
idx टेन्सर int32
लेबल क्लासलेबल int64
आधार मूलपाठ डोरी
  • उद्धरण :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.