- توضیحات :
SuperGLUE ( https://super.gluebenchmark.com/ ) یک معیار جدید است که پس از GLUE با مجموعه جدیدی از وظایف درک زبان دشوارتر، منابع بهبود یافته، و تابلوی امتیازات عمومی جدید طراحی شده است.
اسناد اضافی : کاوش در کاغذها با کد
کد منبع :
tfds.text.SuperGlue
نسخه ها :
-
1.0.2
(پیش فرض): بدون یادداشت انتشار.
-
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
super_glue/boolq (پیکربندی پیشفرض)
توضیحات پیکربندی : BoolQ (سوالات بولی، کلارک و همکاران، 2019a) یک کار QA است که در آن هر مثال شامل یک متن کوتاه و یک سوال بله/خیر در مورد متن است. پرسشها بهصورت ناشناس و ناخواسته توسط کاربران موتور جستجوی Google ارائه میشوند و سپس با یک پاراگراف از یک مقاله ویکیپدیا حاوی پاسخ همراه میشوند. در ادامه کار اصلی، با دقت ارزیابی می کنیم.
صفحه اصلی : https://github.com/google-research-datasets/boolean-questions
حجم دانلود :
3.93 MiB
حجم مجموعه داده :
10.75 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 3,245 |
'train' | 9,427 |
'validation' | 3270 |
- ساختار ویژگی :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'passage': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
idx | تانسور | int32 | ||
برچسب | ClassLabel | int64 | ||
گذر | متن | رشته | ||
سوال | متن | رشته |
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{clark2019boolq,
title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
booktitle={NAACL},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/cb
توضیحات پیکربندی : بانک تعهد (De Marneffe et al., 2019) مجموعه ای از متون کوتاه است که در آن حداقل یک جمله حاوی یک بند تعبیه شده است. هر یک از این بندهای تعبیه شده با میزانی که انتظار داریم شخصی که متن را نوشته به صدق بند متعهد باشد، حاشیه نویسی شده است. کار بهدستآمده بهعنوان دلالت متنی سه کلاسه بر روی نمونههایی که از وال استریت ژورنال، داستانهای مجموعه ملی بریتانیا و سوئیچبورد گرفته شدهاند، قاببندی شد. هر مثال شامل یک مقدمه شامل یک بند تعبیه شده است و فرضیه مربوطه استخراج آن بند است. ما از زیرمجموعهای از دادههایی استفاده میکنیم که توافق بین حاشیهنویسی بالای 0.85 داشتند. دادهها نامتعادل هستند (نمونههای خنثی نسبتاً کمتر)، بنابراین ما با استفاده از دقت و F1 ارزیابی میکنیم، جایی که برای F1 چند کلاسه، میانگین وزننشده F1 را در هر کلاس محاسبه میکنیم.
صفحه اصلی : https://github.com/mcdm/CommitmentBank
حجم دانلود :
73.71 KiB
حجم مجموعه داده :
229.28 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 250 |
'train' | 250 |
'validation' | 56 |
- ساختار ویژگی :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
'premise': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فرضیه | متن | رشته | ||
idx | تانسور | int32 | ||
برچسب | ClassLabel | int64 | ||
فرضیه | متن | رشته |
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{de marneff_simons_tonhauser_2019,
title={The CommitmentBank: Investigating projection in naturally occurring discourse},
journal={proceedings of Sinn und Bedeutung 23},
author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/copa
توضیحات پیکربندی : مجموعه داده انتخاب گزینه های معقول (COPA، Roemmele و همکاران، 2011) یک کار استدلالی علّی است که در آن به یک سیستم یک جمله مقدماتی و دو گزینه ممکن داده می شود. سیستم باید جایگزینی را انتخاب کند که رابطه علّی معقولتری با فرض دارد. روش مورد استفاده برای ساخت گزینهها تضمین میکند که تکلیف برای حل نیاز به استدلال علّی دارد. مثالها یا به علل احتمالی جایگزین میپردازند یا اثرات احتمالی جایگزین جمله مقدماتی، همراه با یک سؤال ساده که بین دو نوع نمونه برای مدل ابهامزدایی میکند. همه نمونه ها دست ساز هستند و بر موضوعاتی از وبلاگ های آنلاین و یک دایره المعارف مرتبط با عکاسی تمرکز دارند. با توجه به توصیه نویسندگان، ما با استفاده از دقت ارزیابی می کنیم.
صفحه اصلی : http://people.ict.usc.edu/~gordon/copa.html
حجم دانلود :
42.96 KiB
اندازه مجموعه داده :
196.00 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 500 |
'train' | 400 |
'validation' | 100 |
- ساختار ویژگی :
FeaturesDict({
'choice1': Text(shape=(), dtype=string),
'choice2': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
انتخاب 1 | متن | رشته | ||
انتخاب 2 | متن | رشته | ||
idx | تانسور | int32 | ||
برچسب | ClassLabel | int64 | ||
فرضیه | متن | رشته | ||
سوال | متن | رشته |
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{roemmele2011choice,
title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
booktitle={2011 AAAI Spring Symposium Series},
year={2011}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/multirc
توضیحات پیکربندی : مجموعه داده درک مطلب چند جمله ای (MultiRC، Khashabi et al., 2018) یک کار پاسخگویی درست/نادرست است. هر مثال شامل یک پاراگراف زمینه، یک سوال در مورد آن پاراگراف، و یک لیست از پاسخ های ممکن به آن سوال است که باید به عنوان درست یا نادرست برچسب گذاری شود. پرسش و پاسخ (QA) یک مشکل رایج در بسیاری از مجموعه داده ها است. ما از MultiRC به دلیل تعدادی ویژگی مطلوب استفاده می کنیم: (1) هر سؤال می تواند چندین پاسخ صحیح ممکن داشته باشد، بنابراین هر جفت سؤال-پاسخ باید مستقل از جفت های دیگر ارزیابی شود، (2) سؤالات به گونه ای طراحی شده اند که پاسخ به هر سؤال مستلزم آن باشد. ترسیم حقایق از جملات متنی متعدد، و (iii) قالب جفت پرسش و پاسخ با API سایر وظایف SuperGLUE نسبت به QA استخراجی مبتنی بر span مطابقت دارد. پاراگراف ها از هفت حوزه شامل اخبار، داستان و متن تاریخی استخراج شده اند.
صفحه اصلی : https://cogcomp.org/multirc/
حجم دانلود :
1.06 MiB
حجم مجموعه داده :
70.39 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 9693 |
'train' | 27,243 |
'validation' | 4,848 |
- ساختار ویژگی :
FeaturesDict({
'answer': Text(shape=(), dtype=string),
'idx': FeaturesDict({
'answer': int32,
'paragraph': int32,
'question': int32,
}),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
پاسخ | متن | رشته | ||
idx | FeaturesDict | |||
idx/answer | تانسور | int32 | ||
idx/پاراگراف | تانسور | int32 | ||
idx/سوال | تانسور | int32 | ||
برچسب | ClassLabel | int64 | ||
پاراگراف | متن | رشته | ||
سوال | متن | رشته |
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{MultiRC2018,
author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
year = {2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/record
توضیحات پیکربندی : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) یک کار QA چند گزینه ای است. هر مثال شامل یک مقاله خبری و یک سوال به سبک کلوز در مورد مقاله است که در آن یک موجودیت پنهان شده است. سیستم باید موجودیت پوشانده شده را از یک لیست معین از موجودیت های ممکن در قسمت ارائه شده پیش بینی کند، جایی که همان موجودیت ممکن است با استفاده از چندین شکل سطحی مختلف بیان شود که همه آنها صحیح در نظر گرفته می شوند. مقالات از CNN و Daily Mail گرفته شده است. پس از کار اصلی، ما با حداکثر (بیش از همه ذکرها) سطح نشانه F1 و تطابق دقیق (EM) ارزیابی می کنیم.
صفحه اصلی : https://sheng-z.github.io/ReCoRD-explorer/
حجم دانلود :
49.36 MiB
حجم مجموعه داده :
166.40 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 10000 |
'train' | 100730 |
'validation' | 10000 |
- ساختار ویژگی :
FeaturesDict({
'answers': Sequence(Text(shape=(), dtype=string)),
'entities': Sequence(Text(shape=(), dtype=string)),
'idx': FeaturesDict({
'passage': int32,
'query': int32,
}),
'passage': Text(shape=(), dtype=string),
'query': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
پاسخ می دهد | دنباله (متن) | (هیچ یک،) | رشته | |
موجودیت ها | دنباله (متن) | (هیچ یک،) | رشته | |
idx | FeaturesDict | |||
idx/passage | تانسور | int32 | ||
idx/پرس و جو | تانسور | int32 | ||
گذر | متن | رشته | ||
پرس و جو | متن | رشته |
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{zhang2018record,
title={Record: Bridging the gap between human and machine commonsense reading comprehension},
author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
journal={arXiv preprint arXiv:1810.12885},
year={2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/rte
شرح پیکربندی : مجموعه دادههای Recognizing Textual Entailment (RTE) از یک سری مسابقات سالانه در مورد دلبستگی متنی، مشکل پیشبینی اینکه آیا یک جمله مقدماتی مستلزم یک جمله فرضی خاص است (همچنین به عنوان استنتاج زبان طبیعی، NLI نیز شناخته میشود) آمده است. RTE قبلاً در GLUE گنجانده شده بود، و ما از همان داده ها و قالب قبلی استفاده می کنیم: داده های RTE1 (Dagan et al., 2006)، RTE2 (Bar Haim et al., 2006)، RTE3 (Giampiccolo et al., 2007)، و RTE5 (Bentivogli و همکاران، 2009). همه مجموعه داده ها ترکیب شده و به طبقه بندی دو کلاسه تبدیل می شوند: entailment و not_entailment. از بین تمام وظایف GLUE، RTE یکی از مواردی بود که از یادگیری انتقالی بیشترین بهره را برد، و از عملکرد تقریباً تصادفی (~56٪) در زمان راه اندازی GLUE به دقت 85٪ (Liu et al., 2019c) جهش کرد. زمان نوشتن با توجه به فاصله هشت امتیازی با توجه به عملکرد انسان، این کار هنوز توسط ماشینها حل نشده است و ما انتظار داریم که شکاف باقی مانده به سختی بسته شود.
صفحه اصلی : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
حجم دانلود :
733.32 KiB
حجم مجموعه داده :
2.15 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 3000 |
'train' | 2,490 |
'validation' | 277 |
- ساختار ویژگی :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فرضیه | متن | رشته | ||
idx | تانسور | int32 | ||
برچسب | ClassLabel | int64 | ||
فرضیه | متن | رشته |
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{dagan2005pascal,
title={The PASCAL recognising textual entailment challenge},
author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
booktitle={Machine Learning Challenges Workshop},
pages={177--190},
year={2005},
organization={Springer}
}
@inproceedings{bar2006second,
title={The second pascal recognising textual entailment challenge},
author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
volume={6},
number={1},
pages={6--4},
year={2006},
organization={Venice}
}
@inproceedings{giampiccolo2007third,
title={The third pascal recognizing textual entailment challenge},
author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
pages={1--9},
year={2007},
organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
booktitle={TAC},
year={2009}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wic
توضیحات پیکربندی : مجموعه داده Word-in-Context (WiC، Pilehvar و Camacho-Collados، 2019) از یک وظیفه ابهامزدایی با مفهوم کلمه پشتیبانی میکند که به عنوان طبقهبندی باینری روی جفتجملات ارائه میشود. با توجه به دو جمله و یک کلمه چندمعنایی (معنا-ابهام) که در هر دو جمله ظاهر می شود، کار این است که مشخص شود آیا این کلمه در هر دو جمله با یک معنی به کار رفته است یا خیر. جملات از WordNet (Miller, 1995)، VerbNet (Schuler, 2005) و Wiktionary استخراج شده اند. ما اصل کار را دنبال می کنیم و با استفاده از دقت ارزیابی می کنیم.
صفحه اصلی : https://pilehvar.github.io/wic/
حجم دانلود :
386.93 KiB
حجم مجموعه داده :
1.67 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1400 |
'train' | 5,428 |
'validation' | 638 |
- ساختار ویژگی :
FeaturesDict({
'end1': int32,
'end2': int32,
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
'start1': int32,
'start2': int32,
'word': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
پایان 1 | تانسور | int32 | ||
پایان 2 | تانسور | int32 | ||
idx | تانسور | int32 | ||
برچسب | ClassLabel | int64 | ||
جمله 1 | متن | رشته | ||
جمله 2 | متن | رشته | ||
شروع 1 | تانسور | int32 | ||
شروع 2 | تانسور | int32 | ||
کلمه | متن | رشته |
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{DBLP:journals/corr/abs-1808-09121,
author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
journal={CoRR},
volume={abs/1808.09121},
year={2018},
url={http://arxiv.org/abs/1808.09121},
archivePrefix={arXiv},
eprint={1808.09121},
timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc
- توضیح پیکربندی : چالش طرحواره وینوگراد (WSC, Levesque et al., 2012) یک کار درک مطلب است که در آن یک سیستم باید یک جمله را با یک ضمیر بخواند و مرجع آن ضمیر را از لیستی از گزینه ها انتخاب کند. با توجه به سختی این کار و فضای اصلی باقی مانده است، ما WSC را در SuperGLUE گنجاندهایم و مجموعه دادهها را به شکل همبستگی آن تغییر میدهیم. این کار به عنوان یک مسئله طبقهبندی باینری، در مقابل انتخاب چندگانه N، به منظور جداسازی توانایی مدل برای درک پیوندهای همبستگی در یک جمله در مقابل استراتژیهای مختلف دیگری که ممکن است در شرایط چند گزینهای وارد بازی شوند، مطرح میشود. با در نظر گرفتن این موضوع، ما یک تقسیم با 65٪ کلاس اکثریت منفی در مجموعه اعتبار سنجی ایجاد می کنیم که منعکس کننده توزیع مجموعه تست پنهان و 52٪ کلاس منفی در مجموعه آموزشی است. نمونههای آموزشی و اعتبارسنجی از مجموعه دادههای اصلی طرحواره وینوگراد (Levesque et al., 2012)، و همچنین مواردی که توسط سازمان وابسته به Commonsense Reasoning توزیع شده است، استخراج شدهاند. نمونههای آزمون از کتابهای داستانی مشتق شدهاند و توسط نویسندگان مجموعه داده اصلی با ما به اشتراک گذاشته شده است. پیش از این، نسخه ای از WSC به عنوان NLI که در GLUE گنجانده شده بود، به نام WNLI شناخته می شد. هیچ پیشرفت قابل توجهی در WNLI حاصل نشد، بسیاری از ارسالها فقط پیشبینیهای کلاس اکثریت را ارسال کردند. WNLI بهویژه بهدلیل تقسیمبندی رقیب قطار/ توسعهدهنده دشوار شد: جملات مقدماتی که در مجموعه آموزشی ظاهر میشوند، گاهی اوقات در مجموعه توسعه با یک فرضیه متفاوت و یک برچسب برگردانده ظاهر میشوند. اگر یک سیستم مجموعه آموزشی را بدون تعمیم معنیدار به خاطر بسپارد، که به دلیل اندازه کوچک مجموعه آموزشی آسان بود، میتوانست در مجموعه توسعه بسیار کمتر از شانس عمل کند. ما این طرح مخالف را در نسخه SuperGLUE WSC حذف می کنیم و اطمینان حاصل می کنیم که هیچ جمله ای بین آموزش، اعتبار سنجی و مجموعه های آزمایشی به اشتراک گذاشته نمی شود.
با این حال، مجموعههای اعتبارسنجی و آزمون از حوزههای متفاوتی میآیند، با مجموعه اعتبارسنجی شامل مثالهای مبهم است، به طوری که تغییر یک کلمه عبارت غیر اسمی، وابستگیهای همبستگی در جمله را تغییر میدهد. مجموعه آزمایشی فقط از مثالهای سادهتر، با تعداد زیاد عبارات اسمی (و در نتیجه انتخابهای بیشتر برای مدل)، اما کم تا بدون ابهام تشکیل شده است.
صفحه اصلی : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
حجم دانلود :
31.98 KiB
اندازه مجموعه داده :
219.70 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- ساختار ویژگی :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
idx | تانسور | int32 | ||
برچسب | ClassLabel | int64 | ||
span1_index | تانسور | int32 | ||
span1_text | متن | رشته | ||
span2_index | تانسور | int32 | ||
span2_text | متن | رشته | ||
متن | متن | رشته |
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/wsc.fixed
- توضیح پیکربندی : چالش طرحواره وینوگراد (WSC, Levesque et al., 2012) یک کار درک مطلب است که در آن یک سیستم باید یک جمله را با یک ضمیر بخواند و مرجع آن ضمیر را از لیستی از گزینه ها انتخاب کند. با توجه به سختی این کار و فضای اصلی باقی مانده است، ما WSC را در SuperGLUE گنجاندهایم و مجموعه دادهها را به شکل همبستگی آن تغییر میدهیم. این کار به عنوان یک مسئله طبقهبندی باینری، در مقابل انتخاب چندگانه N، به منظور جداسازی توانایی مدل برای درک پیوندهای همبستگی در یک جمله در مقابل استراتژیهای مختلف دیگری که ممکن است در شرایط چند گزینهای وارد بازی شوند، مطرح میشود. با در نظر گرفتن این موضوع، ما یک تقسیم با 65٪ کلاس اکثریت منفی در مجموعه اعتبار سنجی ایجاد می کنیم که منعکس کننده توزیع مجموعه تست پنهان و 52٪ کلاس منفی در مجموعه آموزشی است. نمونههای آموزشی و اعتبارسنجی از مجموعه دادههای اصلی طرحواره وینوگراد (Levesque et al., 2012)، و همچنین مواردی که توسط سازمان وابسته به Commonsense Reasoning توزیع شده است، استخراج شدهاند. نمونههای آزمون از کتابهای داستانی مشتق شدهاند و توسط نویسندگان مجموعه داده اصلی با ما به اشتراک گذاشته شده است. پیش از این، نسخه ای از WSC به عنوان NLI که در GLUE گنجانده شده بود، به نام WNLI شناخته می شد. هیچ پیشرفت قابل توجهی در WNLI حاصل نشد، بسیاری از ارسالها فقط پیشبینیهای کلاس اکثریت را ارسال کردند. WNLI بهویژه بهدلیل تقسیمبندی رقیب قطار/ توسعهدهنده دشوار شد: جملات مقدماتی که در مجموعه آموزشی ظاهر میشوند، گاهی اوقات در مجموعه توسعه با یک فرضیه متفاوت و یک برچسب برگردانده ظاهر میشوند. اگر یک سیستم مجموعه آموزشی را بدون تعمیم معنیدار به خاطر بسپارد، که به دلیل اندازه کوچک مجموعه آموزشی آسان بود، میتوانست در مجموعه توسعه بسیار کمتر از شانس عمل کند. ما این طرح مخالف را در نسخه SuperGLUE WSC حذف می کنیم و اطمینان حاصل می کنیم که هیچ جمله ای بین آموزش، اعتبار سنجی و مجموعه های آزمایشی به اشتراک گذاشته نمی شود.
با این حال، مجموعههای اعتبارسنجی و آزمون از حوزههای متفاوتی میآیند، با مجموعه اعتبارسنجی شامل مثالهای مبهم است، به طوری که تغییر یک کلمه عبارت غیر اسمی، وابستگیهای همبستگی در جمله را تغییر میدهد. مجموعه آزمایشی فقط از مثالهای سادهتر، با تعداد زیاد عبارات اسمی (و در نتیجه انتخابهای بیشتر برای مدل)، اما کم تا بدون ابهام تشکیل شده است.
این نسخه مشکلاتی را برطرف می کند که در آن دهانه ها در واقع زیر رشته های متن نیستند.
صفحه اصلی : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
حجم دانلود :
31.98 KiB
اندازه مجموعه داده :
219.70 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- ساختار ویژگی :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'span1_index': int32,
'span1_text': Text(shape=(), dtype=string),
'span2_index': int32,
'span2_text': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
idx | تانسور | int32 | ||
برچسب | ClassLabel | int64 | ||
span1_index | تانسور | int32 | ||
span1_text | متن | رشته | ||
span2_index | تانسور | int32 | ||
span2_text | متن | رشته | ||
متن | متن | رشته |
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/axb
شرح پیکربندی : یک مجموعه داده تشخیصی ساخته شده توسط متخصص که به طور خودکار مدل ها را برای طیف وسیعی از دانش زبانی، عقل سلیم و جهانی آزمایش می کند. هر نمونه در این تشخیصی با پوشش گسترده، یک جفت جمله است که با یک رابطه دلبستگی سهطرفه (استلزام، خنثی، یا تناقض) برچسبگذاری شده و با برچسبهایی برچسبگذاری شده است که نشاندهنده پدیدههایی است که رابطه بین دو جمله را مشخص میکند. ارسالها به تابلوی امتیازات GLUE باید شامل پیشبینیهایی از طبقهبندی کننده MultiNLI ارسالی در مجموعه دادههای تشخیصی باشد، و تجزیه و تحلیل نتایج در کنار تابلوی امتیازات اصلی نشان داده شد. از آنجایی که این کار تشخیصی با پوشش گسترده برای مدل های برتر دشوار است، ما آن را در SuperGLUE حفظ می کنیم. با این حال، از آنجایی که MultiNLI بخشی از SuperGLUE نیست، ما تضاد و خنثی را در یک برچسب not_entailment جمع میکنیم و درخواست میکنیم که موارد ارسالی شامل پیشبینیهایی در مجموعه حاصل از مدل مورد استفاده برای کار RTE باشد.
صفحه اصلی : https://gluebenchmark.com/diagnostics
حجم دانلود :
33.15 KiB
حجم مجموعه داده :
290.53 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1,104 |
- ساختار ویژگی :
FeaturesDict({
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
idx | تانسور | int32 | ||
برچسب | ClassLabel | int64 | ||
جمله 1 | متن | رشته | ||
جمله 2 | متن | رشته |
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
super_glue/axg
توضیحات پیکربندی : Winogender برای اندازه گیری سوگیری جنسیتی در سیستم های وضوح مرجع طراحی شده است. ما از نسخه Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) استفاده میکنیم که Winogender را به عنوان یک کار مستلزم متنی معرفی میکند. هر مثال شامل یک جمله مقدماتی با یک ضمیر مذکر یا مؤنث و یک فرضیه است که مقدمه احتمالی ضمیر را ارائه می دهد. مثالها در جفتهای حداقلی اتفاق میافتند، که تنها تفاوت بین مثال و جفت آن، جنسیت ضمیر در مقدمه است. عملکرد در Winogender هم با دقت و هم با امتیاز برابری جنسیتی اندازهگیری میشود: درصد حداقل جفتهایی که پیشبینیها برای آنها یکسان است. توجه میکنیم که یک سیستم میتواند با حدس زدن یک کلاس برای همه نمونهها بهطور بیاهمیت یک امتیاز برابری جنسیتی کامل به دست آورد، بنابراین نمره برابری جنسیتی بالا بیمعنی است مگر اینکه با دقت بالا همراه باشد. به عنوان یک آزمون تشخیصی سوگیری جنسیتی، ما طرحواره ها را دارای ارزش اخباری مثبت بالا و ارزش اخباری منفی پایین می بینیم. یعنی ممکن است وجود تعصب جنسیتی را در یک سیستم نشان دهند، اما عدم وجود آن را ثابت کنند.
صفحه اصلی : https://github.com/rudinger/winogender-schemas
حجم دانلود :
10.17 KiB
اندازه مجموعه داده :
69.75 KiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 356 |
- ساختار ویژگی :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'idx': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
فرضیه | متن | رشته | ||
idx | تانسور | int32 | ||
برچسب | ClassLabel | int64 | ||
فرضیه | متن | رشته |
- مثالها ( tfds.as_dataframe ):
- نقل قول :
@inproceedings{rudinger-EtAl:2018:N18,
author = {Rudinger, Rachel and Naradowsky, Jason and Leonard, Brian and {Van Durme}, Benjamin},
title = {Gender Bias in Coreference Resolution},
booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2018},
address = {New Orleans, Louisiana},
publisher = {Association for Computational Linguistics}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.