- विवरण :
SuperGLUE ( https://super.gluebenchmark.com/ ) एक नया बेंचमार्क है जिसे GLUE के बाद स्टाइल किया गया है, जिसमें भाषा समझने के अधिक कठिन कार्यों, बेहतर संसाधनों और एक नए सार्वजनिक लीडरबोर्ड का एक नया सेट है।
स्रोत कोड :
tfds.text.SuperGlue
संस्करण :
-
1.0.2
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
super_glue/boolq (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फिग विवरण : बूलक्यू (बूलियन प्रश्न, क्लार्क और अन्य, 2019ए) एक क्यूए कार्य है जहां प्रत्येक उदाहरण में एक छोटा गद्यांश होता है और गद्यांश के बारे में हां/नहीं प्रश्न होता है। प्रश्न गुमनाम रूप से और Google खोज इंजन के उपयोगकर्ताओं द्वारा अवांछित रूप से प्रदान किए जाते हैं, और बाद में उत्तर वाले विकिपीडिया लेख के एक पैराग्राफ के साथ जोड़े जाते हैं। मूल कार्य के बाद, हम सटीकता के साथ मूल्यांकन करते हैं।
मुखपृष्ठ : https://github.com/google-research-datasets/boolean-questions
डाउनलोड आकार :
3.93 MiB
डेटासेट का आकार :
10.75 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 3,245 |
'train' | 9,427 |
'validation' | 3,270 |
- फ़ीचर संरचना :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'passage': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
idx | टेन्सर | int32 | ||
लेबल | क्लासलेबल | int64 | ||
रास्ता | मूलपाठ | डोरी | ||
प्रश्न | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{clark2019boolq,
title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
booktitle={NAACL},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
सुपर_ग्लू/सीबी
कॉन्फ़िगरेशन विवरण : कमिटमेंटबैंक (डी मार्नेफ़े एट अल।, 2019) लघु ग्रंथों का एक कोष है जिसमें कम से कम एक वाक्य में एक एम्बेडेड खंड होता है। इनमें से प्रत्येक एम्बेडेड क्लॉज को उस डिग्री के साथ एनोटेट किया गया है जिससे हम उम्मीद करते हैं कि जिस व्यक्ति ने टेक्स्ट लिखा है वह क्लॉज की सच्चाई के लिए प्रतिबद्ध है। परिणामी कार्य को वॉल स्ट्रीट जर्नल, ब्रिटिश नेशनल कॉर्पस से कथा, और स्विचबोर्ड से तैयार किए गए उदाहरणों पर तीन-श्रेणी के शाब्दिक प्रवेश के रूप में तैयार किया गया है। प्रत्येक उदाहरण में एक आधार होता है जिसमें एक एम्बेडेड क्लॉज होता है और संबंधित परिकल्पना उस क्लॉज का निष्कर्षण होता है। हम डेटा के एक सबसेट का उपयोग करते हैं जिसमें 0.85 से ऊपर इंटर-एनोटेटर समझौता था। डेटा असंतुलित है (अपेक्षाकृत कम तटस्थ उदाहरण), इसलिए हम सटीकता और F1 का उपयोग करके मूल्यांकन करते हैं, जहां बहु-वर्ग F1 के लिए हम प्रति वर्ग F1 के भारित औसत की गणना करते हैं।
डाउनलोड आकार :
73.71 KiB
डेटासेट का आकार :
229.28 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 250 |
'train' | 250 |
'validation' | 56 |
- फ़ीचर संरचना :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
परिकल्पना | मूलपाठ | डोरी | ||
idx | टेन्सर | int32 | ||
लेबल | क्लासलेबल | int64 | ||
आधार | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{de marneff_simons_tonhauser_2019,
title={The CommitmentBank: Investigating projection in naturally occurring discourse},
journal={proceedings of Sinn und Bedeutung 23},
author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
सुपर_ग्लू/कोपा
कॉन्फ़िग विवरण : द चॉइस ऑफ़ प्लॉसिबल अल्टरनेटिव्स (COPA, Roemmele et al., 2011) डेटासेट एक कारणात्मक तर्क कार्य है जिसमें एक सिस्टम को एक आधार वाक्य और दो संभावित विकल्प दिए जाते हैं। सिस्टम को उस विकल्प को चुनना चाहिए जिसका आधार के साथ अधिक प्रशंसनीय कारण संबंध है। विकल्पों के निर्माण के लिए उपयोग की जाने वाली विधि यह सुनिश्चित करती है कि कार्य को हल करने के लिए तर्कपूर्ण तर्क की आवश्यकता है। उदाहरण या तो वैकल्पिक संभावित कारणों या आधार वाक्य के वैकल्पिक संभावित प्रभावों से निपटते हैं, साथ ही मॉडल के लिए दो उदाहरण प्रकारों के बीच एक साधारण प्रश्न के साथ। सभी उदाहरण दस्तकारी हैं और ऑनलाइन ब्लॉग और फोटोग्राफी से संबंधित विश्वकोश के विषयों पर ध्यान केंद्रित करते हैं। लेखकों की सिफारिश के बाद, हम सटीकता का उपयोग करके मूल्यांकन करते हैं।
डाउनलोड का आकार :
42.96 KiB
डेटासेट का आकार :
196.00 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 500 |
'train' | 400 |
'validation' | 100 |
- फ़ीचर संरचना :
FeaturesDict({
'choice1': Text(shape=(), dtype=string),
'choice2': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
पसंद1 | मूलपाठ | डोरी | ||
पसंद2 | मूलपाठ | डोरी | ||
idx | टेन्सर | int32 | ||
लेबल | क्लासलेबल | int64 | ||
आधार | मूलपाठ | डोरी | ||
प्रश्न | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{roemmele2011choice,
title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
booktitle={2011 AAAI Spring Symposium Series},
year={2011}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/multirc
कॉन्फ़िगरेशन विवरण : मल्टी-सेंटेंस रीडिंग कॉम्प्रिहेंशन डेटासेट (MultiRC, Khashabi et al., 2018) एक सही/गलत सवाल-जवाब का काम है। प्रत्येक उदाहरण में एक संदर्भ अनुच्छेद, उस अनुच्छेद के बारे में एक प्रश्न, और उस प्रश्न के संभावित उत्तरों की एक सूची होती है जिसे सही या गलत के रूप में लेबल किया जाना चाहिए। प्रश्न-उत्तर (क्यूए) कई डेटासेट के साथ एक लोकप्रिय समस्या है। हम कई वांछनीय गुणों के कारण मल्टीआरसी का उपयोग करते हैं: (i) प्रत्येक प्रश्न के कई संभावित सही उत्तर हो सकते हैं, इसलिए प्रत्येक प्रश्न-उत्तर जोड़ी का मूल्यांकन अन्य जोड़ियों से स्वतंत्र होना चाहिए, (ii) प्रश्नों को इस तरह से डिज़ाइन किया गया है कि प्रत्येक प्रश्न का उत्तर देने की आवश्यकता है कई संदर्भ वाक्यों से तथ्य खींचना, और (iii) प्रश्न-उत्तर जोड़ी प्रारूप स्पैन-आधारित एक्सट्रैक्टिव QA की तुलना में अन्य SuperGLUE कार्यों के API से अधिक निकटता से मेल खाता है। पैराग्राफ सात डोमेन से तैयार किए गए हैं जिनमें समाचार, कथा और ऐतिहासिक पाठ शामिल हैं।
होमपेज : https://cogcomp.org/multirc/
डाउनलोड आकार :
1.06 MiB
डेटासेट का आकार :
70.39 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 9,693 |
'train' | 27,243 |
'validation' | 4,848 |
- फ़ीचर संरचना :
FeaturesDict({
'answer': Text(shape=(), dtype=string),
'idx': FeaturesDict({
'answer': int32,
'paragraph': int32,
'question': int32,
}),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
उत्तर | मूलपाठ | डोरी | ||
idx | विशेषताएं डिक्ट | |||
आईडीएक्स / उत्तर | टेन्सर | int32 | ||
आईडीएक्स/पैराग्राफ | टेन्सर | int32 | ||
आईडीएक्स/प्रश्न | टेन्सर | int32 | ||
लेबल | क्लासलेबल | int64 | ||
अनुच्छेद | मूलपाठ | डोरी | ||
प्रश्न | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{MultiRC2018,
author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
year = {2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
सुपर_ग्लू/रिकॉर्ड
कॉन्फिग विवरण : (रीडिंग कॉम्प्रिहेंशन विद कॉमन्सेंस रीजनिंग डेटासेट, झांग एट अल।, 2018) एक बहु-विकल्प क्यूए कार्य है। प्रत्येक उदाहरण में एक समाचार लेख और उस लेख के बारे में एक क्लोज़-शैली का प्रश्न होता है जिसमें एक इकाई को छिपाया जाता है। सिस्टम को प्रदान किए गए मार्ग में संभावित संस्थाओं की दी गई सूची से नकाबपोश इकाई की भविष्यवाणी करनी चाहिए, जहां एक ही इकाई को कई अलग-अलग सतह रूपों का उपयोग करके व्यक्त किया जा सकता है, जिनमें से सभी को सही माना जाता है। लेख सीएनएन और डेली मेल से लिए गए हैं। मूल कार्य के बाद, हम अधिकतम (सभी उल्लेखों पर) टोकन-स्तर F1 और सटीक मिलान (EM) के साथ मूल्यांकन करते हैं।
डाउनलोड आकार :
49.36 MiB
डेटासेट का आकार :
166.40 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब
shuffle_files=False
(ट्रेन)विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 10,000 |
'train' | 100,730 |
'validation' | 10,000 |
- फ़ीचर संरचना :
FeaturesDict({
'answers': Sequence(Text(shape=(), dtype=string)),
'entities': Sequence(Text(shape=(), dtype=string)),
'idx': FeaturesDict({
'passage': int32,
'query': int32,
}),
'passage': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
जवाब | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी | |
संस्थाओं | अनुक्रम (पाठ) | (कोई भी नहीं,) | डोरी | |
idx | विशेषताएं डिक्ट | |||
आईडीएक्स/पैसेज | टेन्सर | int32 | ||
आईडीएक्स/क्वेरी | टेन्सर | int32 | ||
रास्ता | मूलपाठ | डोरी | ||
सवाल | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{zhang2018record,
title={Record: Bridging the gap between human and machine commonsense reading comprehension},
author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
journal={arXiv preprint arXiv:1810.12885},
year={2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
सुपर_ग्लू/आरटीई
कॉन्फिग विवरण : रिकॉग्नाइजिंग टेक्स्टुअल एनटेलमेंट (आरटीई) डेटासेट टेक्स्टुअल एंटेलमेंट पर वार्षिक प्रतियोगिताओं की एक श्रृंखला से आते हैं, यह भविष्यवाणी करने की समस्या है कि क्या किसी दिए गए आधार वाक्य में दिए गए परिकल्पना वाक्य (जिसे प्राकृतिक भाषा अनुमान, एनएलआई भी कहा जाता है) शामिल है। RTE को पहले GLUE में शामिल किया गया था, और हम पहले की तरह ही डेटा और प्रारूप का उपयोग करते हैं: हम RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al.) से डेटा मर्ज करते हैं। 2007), और RTE5 (बेंटिवोगली एट अल।, 2009)। सभी डेटासेट संयुक्त होते हैं और दो-श्रेणी के वर्गीकरण में परिवर्तित होते हैं: प्रवेश और not_entailment। सभी GLUE कार्यों में से, RTE उन लोगों में से था, जो GLUE के लॉन्च के समय लगभग यादृच्छिक-मौका प्रदर्शन (~ 56%) से 85% सटीकता (लियू एट अल।, 2019c) के पास छलांग लगाकर सबसे अधिक लाभान्वित हुए। लिखने का समय। मानव प्रदर्शन के संबंध में आठ अंकों के अंतर को देखते हुए, कार्य अभी तक मशीनों द्वारा हल नहीं किया गया है, और हम उम्मीद करते हैं कि शेष अंतर को बंद करना मुश्किल होगा।
होमपेज : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
डाउनलोड आकार :
733.32 KiB
डेटासेट का आकार :
2.15 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 3,000 |
'train' | 2,490 |
'validation' | 277 |
- फ़ीचर संरचना :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
परिकल्पना | मूलपाठ | डोरी | ||
idx | टेन्सर | int32 | ||
लेबल | क्लासलेबल | int64 | ||
आधार | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{dagan2005pascal,
title={The PASCAL recognising textual entailment challenge},
author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
booktitle={Machine Learning Challenges Workshop},
pages={177--190},
year={2005},
organization={Springer}
}
@inproceedings{bar2006second,
title={The second pascal recognising textual entailment challenge},
author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
volume={6},
number={1},
pages={6--4},
year={2006},
organization={Venice}
}
@inproceedings{giampiccolo2007third,
title={The third pascal recognizing textual entailment challenge},
author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
pages={1--9},
year={2007},
organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
booktitle={TAC},
year={2009}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
सुपर_ग्लू/विक
कॉन्फिग विवरण : वर्ड-इन-कॉन्टेक्स्ट (WiC, Pilehvar and Camacho-Collados, 2019) डेटासेट वाक्य जोड़े पर बाइनरी वर्गीकरण के रूप में एक शब्द अर्थ प्रत्यय भेद कार्य कास्ट का समर्थन करता है। दो वाक्यों और दोनों वाक्यों में प्रकट होने वाले एक अस्पष्ट (अर्थ-संदिग्ध) शब्द को देखते हुए, कार्य यह निर्धारित करना है कि शब्द दोनों वाक्यों में समान अर्थ के साथ प्रयोग किया जाता है या नहीं। वाक्य वर्डनेट (मिलर, 1995), वर्बनेट (शूलर, 2005) और विक्षनरी से लिए गए हैं। हम मूल कार्य का पालन करते हैं और सटीकता का उपयोग करके मूल्यांकन करते हैं।
होमपेज : https://pilehvar.github.io/wic/
डाउनलोड आकार :
386.93 KiB
डेटासेट का आकार :
1.67 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,400 |
'train' | 5,428 |
'validation' | 638 |
- फ़ीचर संरचना :
FeaturesDict({
'end1': int32,
'end2': int32,
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
'start1': int32,
'start2': int32,
'word': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
अंत1 | टेन्सर | int32 | ||
end2 | टेन्सर | int32 | ||
idx | टेन्सर | int32 | ||
लेबल | क्लासलेबल | int64 | ||
वाक्य1 | मूलपाठ | डोरी | ||
वाक्य2 | मूलपाठ | डोरी | ||
start1 | टेन्सर | int32 | ||
start2 | टेन्सर | int32 | ||
शब्द | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{DBLP:journals/corr/abs-1808-09121,
author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
journal={CoRR},
volume={abs/1808.09121},
year={2018},
url={http://arxiv.org/abs/1808.09121},
archivePrefix={arXiv},
eprint={1808.09121},
timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
सुपर_ग्लू/wsc
- कॉन्फिग विवरण : विनोग्रैड स्कीमा चैलेंज (डब्ल्यूएससी, लेवेस्क एट अल।, 2012) एक पठन बोध कार्य है जिसमें एक प्रणाली को एक सर्वनाम के साथ एक वाक्य पढ़ना चाहिए और विकल्पों की सूची से उस सर्वनाम के संदर्भ का चयन करना चाहिए। इस कार्य की कठिनाई और हेडरूम अभी भी बाकी है, इसे देखते हुए, हमने WSC को SuperGLUE में शामिल किया है और डेटासेट को इसके मूल रूप में फिर से तैयार किया है। कार्य को एक द्विआधारी वर्गीकरण समस्या के रूप में रखा गया है, जैसा कि एन-बहुविकल्पी के विपरीत, एक वाक्य के भीतर मूल लिंक को समझने की मॉडल की क्षमता को अलग करने के लिए, जो कि कई अन्य रणनीतियों के विपरीत है, जो बहुविकल्पी स्थितियों में चलन में आ सकते हैं। इसे ध्यान में रखते हुए, हम सत्यापन सेट में 65% नकारात्मक बहुसंख्यक वर्ग के साथ एक विभाजन बनाते हैं, जो छिपे हुए परीक्षण सेट के वितरण और प्रशिक्षण सेट में 52% नकारात्मक वर्ग को दर्शाता है। प्रशिक्षण और सत्यापन उदाहरण मूल विनोग्रैड स्कीमा डेटासेट (लेवेस्क एट अल।, 2012) से लिए गए हैं, साथ ही साथ संबद्ध संगठन कॉमन्सेंस रीजनिंग द्वारा वितरित किए गए हैं। परीक्षण के उदाहरण काल्पनिक किताबों से लिए गए हैं और मूल डेटासेट के लेखकों द्वारा हमारे साथ साझा किए गए हैं। पहले, WSC का एक संस्करण एनएलआई के रूप में पुनर्गठित होता है जैसा कि ग्लू में शामिल है, जिसे डब्ल्यूएनएलआई के रूप में जाना जाता है। WNLI पर कोई ठोस प्रगति नहीं हुई, कई प्रस्तुतियाँ केवल बहुमत वर्ग की भविष्यवाणियों को प्रस्तुत करने का विकल्प चुनती हैं। एक प्रतिकूल ट्रेन/देव विभाजन के कारण WNLI को विशेष रूप से कठिन बना दिया गया था: प्रशिक्षण सेट में दिखाई देने वाले परिसर वाक्य कभी-कभी विकास सेट में एक अलग परिकल्पना और फ़्लिप किए गए लेबल के साथ दिखाई देते हैं। यदि एक प्रणाली ने प्रशिक्षण सेट को अर्थपूर्ण सामान्यीकरण के बिना याद किया, जो कि प्रशिक्षण सेट के छोटे आकार के कारण आसान था, तो यह विकास सेट पर मौके से बहुत कम प्रदर्शन कर सकता था। हम WSC के SuperGLUE संस्करण में इस प्रतिकूल डिज़ाइन को यह सुनिश्चित करके हटाते हैं कि प्रशिक्षण, सत्यापन और परीक्षण सेट के बीच कोई वाक्य साझा नहीं किया गया है।
हालाँकि, सत्यापन और परीक्षण सेट अलग-अलग डोमेन से आते हैं, सत्यापन सेट में अस्पष्ट उदाहरण होते हैं जैसे कि एक गैर-संज्ञा वाक्यांश शब्द को बदलने से वाक्य में मूल निर्भरता बदल जाएगी। परीक्षण सेट में केवल अधिक सरल उदाहरण होते हैं, जिनमें उच्च संख्या में संज्ञा वाक्यांश होते हैं (और इस प्रकार मॉडल के लिए अधिक विकल्प), लेकिन कम से कम कोई अस्पष्टता नहीं होती है।
होमपेज : https://cs.nyu.edu/facademy/davise/papers/WinogradSchemas/WS.html
डाउनलोड आकार :
31.98 KiB
डेटासेट का आकार :
219.70 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- फ़ीचर संरचना :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
idx | टेन्सर | int32 | ||
लेबल | क्लासलेबल | int64 | ||
span1_index | टेन्सर | int32 | ||
span1_text | मूलपाठ | डोरी | ||
span2_index | टेन्सर | int32 | ||
span2_text | मूलपाठ | डोरी | ||
मूलपाठ | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
सुपर_ग्लू/wsc.fixed
- कॉन्फिग विवरण : विनोग्रैड स्कीमा चैलेंज (डब्ल्यूएससी, लेवेस्क एट अल।, 2012) एक पठन बोध कार्य है जिसमें एक प्रणाली को एक सर्वनाम के साथ एक वाक्य पढ़ना चाहिए और विकल्पों की सूची से उस सर्वनाम के संदर्भ का चयन करना चाहिए। इस कार्य की कठिनाई और हेडरूम अभी भी बाकी है, इसे देखते हुए, हमने WSC को SuperGLUE में शामिल किया है और डेटासेट को इसके मूल रूप में फिर से तैयार किया है। कार्य को एक द्विआधारी वर्गीकरण समस्या के रूप में रखा गया है, जैसा कि एन-बहुविकल्पी के विपरीत, एक वाक्य के भीतर मूल लिंक को समझने की मॉडल की क्षमता को अलग करने के लिए, जो कि कई अन्य रणनीतियों के विपरीत है, जो बहुविकल्पी स्थितियों में चलन में आ सकते हैं। इसे ध्यान में रखते हुए, हम सत्यापन सेट में 65% नकारात्मक बहुसंख्यक वर्ग के साथ एक विभाजन बनाते हैं, जो छिपे हुए परीक्षण सेट के वितरण और प्रशिक्षण सेट में 52% नकारात्मक वर्ग को दर्शाता है। प्रशिक्षण और सत्यापन उदाहरण मूल विनोग्रैड स्कीमा डेटासेट (लेवेस्क एट अल।, 2012) से लिए गए हैं, साथ ही साथ संबद्ध संगठन कॉमन्सेंस रीजनिंग द्वारा वितरित किए गए हैं। परीक्षण के उदाहरण काल्पनिक किताबों से लिए गए हैं और मूल डेटासेट के लेखकों द्वारा हमारे साथ साझा किए गए हैं। पहले, WSC का एक संस्करण एनएलआई के रूप में पुनर्गठित होता है जैसा कि ग्लू में शामिल है, जिसे डब्ल्यूएनएलआई के रूप में जाना जाता है। WNLI पर कोई ठोस प्रगति नहीं हुई, कई प्रस्तुतियाँ केवल बहुमत वर्ग की भविष्यवाणियों को प्रस्तुत करने का विकल्प चुनती हैं। एक प्रतिकूल ट्रेन/देव विभाजन के कारण WNLI को विशेष रूप से कठिन बना दिया गया था: प्रशिक्षण सेट में दिखाई देने वाले परिसर वाक्य कभी-कभी विकास सेट में एक अलग परिकल्पना और फ़्लिप किए गए लेबल के साथ दिखाई देते हैं। यदि एक प्रणाली ने प्रशिक्षण सेट को अर्थपूर्ण सामान्यीकरण के बिना याद किया, जो कि प्रशिक्षण सेट के छोटे आकार के कारण आसान था, तो यह विकास सेट पर मौके से बहुत कम प्रदर्शन कर सकता था। हम WSC के SuperGLUE संस्करण में इस प्रतिकूल डिज़ाइन को यह सुनिश्चित करके हटाते हैं कि प्रशिक्षण, सत्यापन और परीक्षण सेट के बीच कोई वाक्य साझा नहीं किया गया है।
हालाँकि, सत्यापन और परीक्षण सेट अलग-अलग डोमेन से आते हैं, सत्यापन सेट में अस्पष्ट उदाहरण होते हैं जैसे कि एक गैर-संज्ञा वाक्यांश शब्द को बदलने से वाक्य में मूल निर्भरता बदल जाएगी। परीक्षण सेट में केवल अधिक सरल उदाहरण होते हैं, जिनमें उच्च संख्या में संज्ञा वाक्यांश होते हैं (और इस प्रकार मॉडल के लिए अधिक विकल्प), लेकिन कम से कम कोई अस्पष्टता नहीं होती है।
यह संस्करण उन समस्याओं को ठीक करता है जहां स्पैन वास्तव में पाठ के सबस्ट्रिंग नहीं हैं।
होमपेज : https://cs.nyu.edu/facademy/davise/papers/WinogradSchemas/WS.html
डाउनलोड आकार :
31.98 KiB
डेटासेट का आकार :
219.70 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- फ़ीचर संरचना :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
idx | टेन्सर | int32 | ||
लेबल | क्लासलेबल | int64 | ||
span1_index | टेन्सर | int32 | ||
span1_text | मूलपाठ | डोरी | ||
span2_index | टेन्सर | int32 | ||
span2_text | मूलपाठ | डोरी | ||
मूलपाठ | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
सुपर_ग्लू/एक्सबी
कॉन्फ़िगरेशन विवरण : एक विशेषज्ञ-निर्मित, डायग्नोस्टिक डेटासेट जो स्वचालित रूप से भाषाई, सामान्य ज्ञान और विश्व ज्ञान की एक विस्तृत श्रृंखला के लिए मॉडल का परीक्षण करता है। इस व्यापक-कवरेज डायग्नोस्टिक में प्रत्येक उदाहरण एक वाक्य जोड़ी है जिसे तीन-तरफ़ा प्रवेश संबंध (एंटेलमेंट, न्यूट्रल, या विरोधाभास) के साथ लेबल किया गया है और लेबल के साथ टैग किया गया है जो दो वाक्यों के बीच संबंध को दर्शाने वाली घटनाओं को इंगित करता है। GLUE लीडरबोर्ड में सबमिशन के लिए डायग्नोस्टिक डेटासेट पर सबमिशन के मल्टीएनएलआई क्लासिफायर से भविष्यवाणियों को शामिल करना आवश्यक है, और परिणामों के विश्लेषण मुख्य लीडरबोर्ड के साथ दिखाए गए थे। चूंकि यह व्यापक कवरेज डायग्नोस्टिक कार्य शीर्ष मॉडलों के लिए कठिन साबित हुआ है, इसलिए हम इसे सुपरग्लू में बनाए रखते हैं। हालाँकि, चूंकि MultiNLI SuperGLUE का हिस्सा नहीं है, इसलिए हम विरोधाभास और तटस्थ को एक एकल not_entailment लेबल में समाप्त करते हैं, और अनुरोध करते हैं कि सबमिशन में RTE कार्य के लिए उपयोग किए गए मॉडल से परिणामी सेट पर भविष्यवाणियां शामिल हों।
डाउनलोड आकार :
33.15 KiB
डेटासेट का आकार :
290.53 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,104 |
- फ़ीचर संरचना :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
idx | टेन्सर | int32 | ||
लेबल | क्लासलेबल | int64 | ||
वाक्य1 | मूलपाठ | डोरी | ||
वाक्य2 | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
सुपर_ग्लू/एक्सजी
Config विवरण : Winogender को कोरेफेरेंस रेज़ोल्यूशन सिस्टम में लिंग पूर्वाग्रह को मापने के लिए डिज़ाइन किया गया है। हम डायवर्स नेचुरल लैंग्वेज इन्वेंशन कलेक्शन (DNC; पोलीक एट अल।, 2018) संस्करण का उपयोग करते हैं, जो कि विनोगेंडर को टेक्स्टुअल एंटेलमेंट टास्क के रूप में प्रस्तुत करता है। प्रत्येक उदाहरण में पुरुष या महिला सर्वनाम के साथ एक आधार वाक्य होता है और सर्वनाम के संभावित पूर्ववर्ती देने वाली परिकल्पना होती है। उदाहरण न्यूनतम जोड़े में होते हैं, जहां एक उदाहरण और उसकी जोड़ी के बीच एकमात्र अंतर आधारवाक्य में सर्वनाम का लिंग है। विनोगेंडर पर प्रदर्शन को सटीकता और लिंग समानता स्कोर दोनों के साथ मापा जाता है: न्यूनतम जोड़े का प्रतिशत जिसके लिए पूर्वानुमान समान हैं। हम ध्यान देते हैं कि एक प्रणाली सभी उदाहरणों के लिए समान वर्ग का अनुमान लगाकर तुच्छ रूप से एक पूर्ण लिंग समानता स्कोर प्राप्त कर सकती है, इसलिए एक उच्च लिंग समानता स्कोर तब तक अर्थहीन है जब तक कि उच्च सटीकता के साथ न हो। लिंग पूर्वाग्रह के नैदानिक परीक्षण के रूप में, हम स्कीमा को उच्च सकारात्मक भविष्य कहनेवाला मूल्य और कम नकारात्मक भविष्य कहनेवाला मूल्य के रूप में देखते हैं; अर्थात्, वे एक प्रणाली में लैंगिक पूर्वाग्रह की उपस्थिति को प्रदर्शित कर सकते हैं, लेकिन इसकी अनुपस्थिति को सिद्ध नहीं कर सकते।
डाउनलोड आकार :
10.17 KiB
डेटासेट का आकार :
69.75 KiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 356 |
- फ़ीचर संरचना :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएं डिक्ट | ||||
परिकल्पना | मूलपाठ | डोरी | ||
idx | टेन्सर | int32 | ||
लेबल | क्लासलेबल | int64 | ||
आधार | मूलपाठ | डोरी |
- उदाहरण ( tfds.as_dataframe ):
- उद्धरण :
@inproceedings{rudinger-EtAl:2018:N18,
author = {Rudinger, Rachel and Naradowsky, Jason and Leonard, Brian and {Van Durme}, Benjamin},
title = {Gender Bias in Coreference Resolution},
booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2018},
address = {New Orleans, Louisiana},
publisher = {Association for Computational Linguistics}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.