فوق_چسب

  • توضیحات :

SuperGLUE ( https://super.gluebenchmark.com/ ) یک معیار جدید است که پس از GLUE با مجموعه جدیدی از وظایف درک زبان دشوارتر، منابع بهبود یافته، و تابلوی امتیازات عمومی جدید طراحی شده است.

super_glue/boolq (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : BoolQ (سوالات بولی، کلارک و همکاران، 2019a) یک کار QA است که در آن هر مثال شامل یک متن کوتاه و یک سوال بله/خیر در مورد متن است. پرسش‌ها به‌صورت ناشناس و ناخواسته توسط کاربران موتور جستجوی Google ارائه می‌شوند و سپس با یک پاراگراف از یک مقاله ویکی‌پدیا حاوی پاسخ همراه می‌شوند. در ادامه کار اصلی، با دقت ارزیابی می کنیم.

  • صفحه اصلی : https://github.com/google-research-datasets/boolean-questions

  • حجم دانلود : 3.93 MiB

  • حجم مجموعه داده : 10.75 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 3,245
'train' 9,427
'validation' 3270
  • ساختار ویژگی :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
idx تانسور int32
برچسب ClassLabel int64
گذر متن رشته
سوال متن رشته
  • نقل قول :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/cb

  • توضیحات پیکربندی : بانک تعهد (De Marneffe et al., 2019) مجموعه ای از متون کوتاه است که در آن حداقل یک جمله حاوی یک بند تعبیه شده است. هر یک از این بندهای تعبیه شده با میزانی که انتظار داریم شخصی که متن را نوشته به صدق بند متعهد باشد، حاشیه نویسی شده است. کار به‌دست‌آمده به‌عنوان دلالت متنی سه کلاسه بر روی نمونه‌هایی که از وال استریت ژورنال، داستان‌های مجموعه ملی بریتانیا و سوئیچ‌بورد گرفته شده‌اند، قاب‌بندی شد. هر مثال شامل یک مقدمه شامل یک بند تعبیه شده است و فرضیه مربوطه استخراج آن بند است. ما از زیرمجموعه‌ای از داده‌هایی استفاده می‌کنیم که توافق بین حاشیه‌نویسی بالای 0.85 داشتند. داده‌ها نامتعادل هستند (نمونه‌های خنثی نسبتاً کمتر)، بنابراین ما با استفاده از دقت و F1 ارزیابی می‌کنیم، جایی که برای F1 چند کلاسه، میانگین وزن‌نشده F1 را در هر کلاس محاسبه می‌کنیم.

  • صفحه اصلی : https://github.com/mcdm/CommitmentBank

  • حجم دانلود : 73.71 KiB

  • حجم مجموعه داده : 229.28 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 250
'train' 250
'validation' 56
  • ساختار ویژگی :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فرضیه متن رشته
idx تانسور int32
برچسب ClassLabel int64
فرضیه متن رشته
  • نقل قول :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/copa

  • توضیحات پیکربندی : مجموعه داده انتخاب گزینه های معقول (COPA، Roemmele و همکاران، 2011) یک کار استدلالی علّی است که در آن به یک سیستم یک جمله مقدماتی و دو گزینه ممکن داده می شود. سیستم باید جایگزینی را انتخاب کند که رابطه علّی معقول‌تری با فرض دارد. روش مورد استفاده برای ساخت گزینه‌ها تضمین می‌کند که تکلیف برای حل نیاز به استدلال علّی دارد. مثال‌ها یا به علل احتمالی جایگزین می‌پردازند یا اثرات احتمالی جایگزین جمله مقدماتی، همراه با یک سؤال ساده که بین دو نوع نمونه برای مدل ابهام‌زدایی می‌کند. همه نمونه ها دست ساز هستند و بر موضوعاتی از وبلاگ های آنلاین و یک دایره المعارف مرتبط با عکاسی تمرکز دارند. با توجه به توصیه نویسندگان، ما با استفاده از دقت ارزیابی می کنیم.

  • صفحه اصلی : http://people.ict.usc.edu/~gordon/copa.html

  • حجم دانلود : 42.96 KiB

  • اندازه مجموعه داده : 196.00 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 500
'train' 400
'validation' 100
  • ساختار ویژگی :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
انتخاب 1 متن رشته
انتخاب 2 متن رشته
idx تانسور int32
برچسب ClassLabel int64
فرضیه متن رشته
سوال متن رشته
  • نقل قول :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • توضیحات پیکربندی : مجموعه داده درک مطلب چند جمله ای (MultiRC، Khashabi et al., 2018) یک کار پاسخگویی درست/نادرست است. هر مثال شامل یک پاراگراف زمینه، یک سوال در مورد آن پاراگراف، و یک لیست از پاسخ های ممکن به آن سوال است که باید به عنوان درست یا نادرست برچسب گذاری شود. پرسش و پاسخ (QA) یک مشکل رایج در بسیاری از مجموعه داده ها است. ما از MultiRC به دلیل تعدادی ویژگی مطلوب استفاده می کنیم: (1) هر سؤال می تواند چندین پاسخ صحیح ممکن داشته باشد، بنابراین هر جفت سؤال-پاسخ باید مستقل از جفت های دیگر ارزیابی شود، (2) سؤالات به گونه ای طراحی شده اند که پاسخ به هر سؤال مستلزم آن باشد. ترسیم حقایق از جملات متنی متعدد، و (iii) قالب جفت پرسش و پاسخ با API سایر وظایف SuperGLUE نسبت به QA استخراجی مبتنی بر span مطابقت دارد. پاراگراف ها از هفت حوزه شامل اخبار، داستان و متن تاریخی استخراج شده اند.

  • صفحه اصلی : https://cogcomp.org/multirc/

  • حجم دانلود : 1.06 MiB

  • حجم مجموعه داده : 70.39 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 9693
'train' 27,243
'validation' 4,848
  • ساختار ویژگی :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
پاسخ متن رشته
idx FeaturesDict
idx/answer تانسور int32
idx/پاراگراف تانسور int32
idx/سوال تانسور int32
برچسب ClassLabel int64
پاراگراف متن رشته
سوال متن رشته
  • نقل قول :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/record

  • توضیحات پیکربندی : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) یک کار QA چند گزینه ای است. هر مثال شامل یک مقاله خبری و یک سوال به سبک کلوز در مورد مقاله است که در آن یک موجودیت پنهان شده است. سیستم باید موجودیت پوشانده شده را از یک لیست معین از موجودیت های ممکن در قسمت ارائه شده پیش بینی کند، جایی که همان موجودیت ممکن است با استفاده از چندین شکل سطحی مختلف بیان شود که همه آنها صحیح در نظر گرفته می شوند. مقالات از CNN و Daily Mail گرفته شده است. پس از کار اصلی، ما با حداکثر (بیش از همه ذکرها) سطح نشانه F1 و تطابق دقیق (EM) ارزیابی می کنیم.

  • صفحه اصلی : https://sheng-z.github.io/ReCoRD-explorer/

  • حجم دانلود : 49.36 MiB

  • حجم مجموعه داده : 166.40 MiB

  • ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'test' 10000
'train' 100730
'validation' 10000
  • ساختار ویژگی :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
پاسخ می دهد دنباله (متن) (هیچ یک،) رشته
موجودیت ها دنباله (متن) (هیچ یک،) رشته
idx FeaturesDict
idx/passage تانسور int32
idx/پرس و جو تانسور int32
گذر متن رشته
پرس و جو متن رشته
  • نقل قول :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • شرح پیکربندی : مجموعه داده‌های Recognizing Textual Entailment (RTE) از یک سری مسابقات سالانه در مورد دلبستگی متنی، مشکل پیش‌بینی اینکه آیا یک جمله مقدماتی مستلزم یک جمله فرضی خاص است (همچنین به عنوان استنتاج زبان طبیعی، NLI نیز شناخته می‌شود) آمده است. RTE قبلاً در GLUE گنجانده شده بود، و ما از همان داده ها و قالب قبلی استفاده می کنیم: داده های RTE1 (Dagan et al., 2006)، RTE2 (Bar Haim et al., 2006)، RTE3 (Giampiccolo et al., 2007)، و RTE5 (Bentivogli و همکاران، 2009). همه مجموعه داده ها ترکیب شده و به طبقه بندی دو کلاسه تبدیل می شوند: entailment و not_entailment. از بین تمام وظایف GLUE، RTE یکی از مواردی بود که از یادگیری انتقالی بیشترین بهره را برد، و از عملکرد تقریباً تصادفی (~56٪) در زمان راه اندازی GLUE به دقت 85٪ (Liu et al., 2019c) جهش کرد. زمان نوشتن با توجه به فاصله هشت امتیازی با توجه به عملکرد انسان، این کار هنوز توسط ماشین‌ها حل نشده است و ما انتظار داریم که شکاف باقی مانده به سختی بسته شود.

  • صفحه اصلی : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • حجم دانلود : 733.32 KiB

  • حجم مجموعه داده : 2.15 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 3000
'train' 2,490
'validation' 277
  • ساختار ویژگی :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فرضیه متن رشته
idx تانسور int32
برچسب ClassLabel int64
فرضیه متن رشته
  • نقل قول :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • توضیحات پیکربندی : مجموعه داده Word-in-Context (WiC، Pilehvar و Camacho-Collados، 2019) از یک وظیفه ابهام‌زدایی با مفهوم کلمه پشتیبانی می‌کند که به عنوان طبقه‌بندی باینری روی جفت‌جملات ارائه می‌شود. با توجه به دو جمله و یک کلمه چندمعنایی (معنا-ابهام) که در هر دو جمله ظاهر می شود، کار این است که مشخص شود آیا این کلمه در هر دو جمله با یک معنی به کار رفته است یا خیر. جملات از WordNet (Miller, 1995)، VerbNet (Schuler, 2005) و Wiktionary استخراج شده اند. ما اصل کار را دنبال می کنیم و با استفاده از دقت ارزیابی می کنیم.

  • صفحه اصلی : https://pilehvar.github.io/wic/

  • حجم دانلود : 386.93 KiB

  • حجم مجموعه داده : 1.67 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1400
'train' 5,428
'validation' 638
  • ساختار ویژگی :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
پایان 1 تانسور int32
پایان 2 تانسور int32
idx تانسور int32
برچسب ClassLabel int64
جمله 1 متن رشته
جمله 2 متن رشته
شروع 1 تانسور int32
شروع 2 تانسور int32
کلمه متن رشته
  • نقل قول :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • توضیح پیکربندی : چالش طرحواره وینوگراد (WSC, Levesque et al., 2012) یک کار درک مطلب است که در آن یک سیستم باید یک جمله را با یک ضمیر بخواند و مرجع آن ضمیر را از لیستی از گزینه ها انتخاب کند. با توجه به سختی این کار و فضای اصلی باقی مانده است، ما WSC را در SuperGLUE گنجانده‌ایم و مجموعه داده‌ها را به شکل همبستگی آن تغییر می‌دهیم. این کار به عنوان یک مسئله طبقه‌بندی باینری، در مقابل انتخاب چندگانه N، به منظور جداسازی توانایی مدل برای درک پیوندهای همبستگی در یک جمله در مقابل استراتژی‌های مختلف دیگری که ممکن است در شرایط چند گزینه‌ای وارد بازی شوند، مطرح می‌شود. با در نظر گرفتن این موضوع، ما یک تقسیم با 65٪ کلاس اکثریت منفی در مجموعه اعتبار سنجی ایجاد می کنیم که منعکس کننده توزیع مجموعه تست پنهان و 52٪ کلاس منفی در مجموعه آموزشی است. نمونه‌های آموزشی و اعتبارسنجی از مجموعه داده‌های اصلی طرحواره وینوگراد (Levesque et al., 2012)، و همچنین مواردی که توسط سازمان وابسته به Commonsense Reasoning توزیع شده است، استخراج شده‌اند. نمونه‌های آزمون از کتاب‌های داستانی مشتق شده‌اند و توسط نویسندگان مجموعه داده اصلی با ما به اشتراک گذاشته شده است. پیش از این، نسخه ای از WSC به عنوان NLI که در GLUE گنجانده شده بود، به نام WNLI شناخته می شد. هیچ پیشرفت قابل توجهی در WNLI حاصل نشد، بسیاری از ارسال‌ها فقط پیش‌بینی‌های کلاس اکثریت را ارسال کردند. WNLI به‌ویژه به‌دلیل تقسیم‌بندی رقیب قطار/ توسعه‌دهنده دشوار شد: جملات مقدماتی که در مجموعه آموزشی ظاهر می‌شوند، گاهی اوقات در مجموعه توسعه با یک فرضیه متفاوت و یک برچسب برگردانده ظاهر می‌شوند. اگر یک سیستم مجموعه آموزشی را بدون تعمیم معنی‌دار به خاطر بسپارد، که به دلیل اندازه کوچک مجموعه آموزشی آسان بود، می‌توانست در مجموعه توسعه بسیار کمتر از شانس عمل کند. ما این طرح مخالف را در نسخه SuperGLUE WSC حذف می کنیم و اطمینان حاصل می کنیم که هیچ جمله ای بین آموزش، اعتبار سنجی و مجموعه های آزمایشی به اشتراک گذاشته نمی شود.

با این حال، مجموعه‌های اعتبارسنجی و آزمون از حوزه‌های متفاوتی می‌آیند، با مجموعه اعتبارسنجی شامل مثال‌های مبهم است، به طوری که تغییر یک کلمه عبارت غیر اسمی، وابستگی‌های همبستگی در جمله را تغییر می‌دهد. مجموعه آزمایشی فقط از مثال‌های ساده‌تر، با تعداد زیاد عبارات اسمی (و در نتیجه انتخاب‌های بیشتر برای مدل)، اما کم تا بدون ابهام تشکیل شده است.

شکاف مثال ها
'test' 146
'train' 554
'validation' 104
  • ساختار ویژگی :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
idx تانسور int32
برچسب ClassLabel int64
span1_index تانسور int32
span1_text متن رشته
span2_index تانسور int32
span2_text متن رشته
متن متن رشته
  • نقل قول :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • توضیح پیکربندی : چالش طرحواره وینوگراد (WSC, Levesque et al., 2012) یک کار درک مطلب است که در آن یک سیستم باید یک جمله را با یک ضمیر بخواند و مرجع آن ضمیر را از لیستی از گزینه ها انتخاب کند. با توجه به سختی این کار و فضای اصلی باقی مانده است، ما WSC را در SuperGLUE گنجانده‌ایم و مجموعه داده‌ها را به شکل همبستگی آن تغییر می‌دهیم. این کار به عنوان یک مسئله طبقه‌بندی باینری، در مقابل انتخاب چندگانه N، به منظور جداسازی توانایی مدل برای درک پیوندهای همبستگی در یک جمله در مقابل استراتژی‌های مختلف دیگری که ممکن است در شرایط چند گزینه‌ای وارد بازی شوند، مطرح می‌شود. با در نظر گرفتن این موضوع، ما یک تقسیم با 65٪ کلاس اکثریت منفی در مجموعه اعتبار سنجی ایجاد می کنیم که منعکس کننده توزیع مجموعه تست پنهان و 52٪ کلاس منفی در مجموعه آموزشی است. نمونه‌های آموزشی و اعتبارسنجی از مجموعه داده‌های اصلی طرحواره وینوگراد (Levesque et al., 2012)، و همچنین مواردی که توسط سازمان وابسته به Commonsense Reasoning توزیع شده است، استخراج شده‌اند. نمونه‌های آزمون از کتاب‌های داستانی مشتق شده‌اند و توسط نویسندگان مجموعه داده اصلی با ما به اشتراک گذاشته شده است. پیش از این، نسخه ای از WSC به عنوان NLI که در GLUE گنجانده شده بود، به نام WNLI شناخته می شد. هیچ پیشرفت قابل توجهی در WNLI حاصل نشد، بسیاری از ارسال‌ها فقط پیش‌بینی‌های کلاس اکثریت را ارسال کردند. WNLI به‌ویژه به‌دلیل تقسیم‌بندی رقیب قطار/ توسعه‌دهنده دشوار شد: جملات مقدماتی که در مجموعه آموزشی ظاهر می‌شوند، گاهی اوقات در مجموعه توسعه با یک فرضیه متفاوت و یک برچسب برگردانده ظاهر می‌شوند. اگر یک سیستم مجموعه آموزشی را بدون تعمیم معنی‌دار به خاطر بسپارد، که به دلیل اندازه کوچک مجموعه آموزشی آسان بود، می‌توانست در مجموعه توسعه بسیار کمتر از شانس عمل کند. ما این طرح مخالف را در نسخه SuperGLUE WSC حذف می کنیم و اطمینان حاصل می کنیم که هیچ جمله ای بین آموزش، اعتبار سنجی و مجموعه های آزمایشی به اشتراک گذاشته نمی شود.

با این حال، مجموعه‌های اعتبارسنجی و آزمون از حوزه‌های متفاوتی می‌آیند، با مجموعه اعتبارسنجی شامل مثال‌های مبهم است، به طوری که تغییر یک کلمه عبارت غیر اسمی، وابستگی‌های همبستگی در جمله را تغییر می‌دهد. مجموعه آزمایشی فقط از مثال‌های ساده‌تر، با تعداد زیاد عبارات اسمی (و در نتیجه انتخاب‌های بیشتر برای مدل)، اما کم تا بدون ابهام تشکیل شده است.

این نسخه مشکلاتی را برطرف می کند که در آن دهانه ها در واقع زیر رشته های متن نیستند.

شکاف مثال ها
'test' 146
'train' 554
'validation' 104
  • ساختار ویژگی :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
idx تانسور int32
برچسب ClassLabel int64
span1_index تانسور int32
span1_text متن رشته
span2_index تانسور int32
span2_text متن رشته
متن متن رشته
  • نقل قول :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • شرح پیکربندی : یک مجموعه داده تشخیصی ساخته شده توسط متخصص که به طور خودکار مدل ها را برای طیف وسیعی از دانش زبانی، عقل سلیم و جهانی آزمایش می کند. هر نمونه در این تشخیصی با پوشش گسترده، یک جفت جمله است که با یک رابطه دلبستگی سه‌طرفه (استلزام، خنثی، یا تناقض) برچسب‌گذاری شده و با برچسب‌هایی برچسب‌گذاری شده است که نشان‌دهنده پدیده‌هایی است که رابطه بین دو جمله را مشخص می‌کند. ارسال‌ها به تابلوی امتیازات GLUE باید شامل پیش‌بینی‌هایی از طبقه‌بندی کننده MultiNLI ارسالی در مجموعه داده‌های تشخیصی باشد، و تجزیه و تحلیل نتایج در کنار تابلوی امتیازات اصلی نشان داده شد. از آنجایی که این کار تشخیصی با پوشش گسترده برای مدل های برتر دشوار است، ما آن را در SuperGLUE حفظ می کنیم. با این حال، از آنجایی که MultiNLI بخشی از SuperGLUE نیست، ما تضاد و خنثی را در یک برچسب not_entailment جمع می‌کنیم و درخواست می‌کنیم که موارد ارسالی شامل پیش‌بینی‌هایی در مجموعه حاصل از مدل مورد استفاده برای کار RTE باشد.

  • صفحه اصلی : https://gluebenchmark.com/diagnostics

  • حجم دانلود : 33.15 KiB

  • حجم مجموعه داده : 290.53 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 1,104
  • ساختار ویژگی :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
idx تانسور int32
برچسب ClassLabel int64
جمله 1 متن رشته
جمله 2 متن رشته
  • نقل قول :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • توضیحات پیکربندی : Winogender برای اندازه گیری سوگیری جنسیتی در سیستم های وضوح مرجع طراحی شده است. ما از نسخه Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) استفاده می‌کنیم که Winogender را به عنوان یک کار مستلزم متنی معرفی می‌کند. هر مثال شامل یک جمله مقدماتی با یک ضمیر مذکر یا مؤنث و یک فرضیه است که مقدمه احتمالی ضمیر را ارائه می دهد. مثال‌ها در جفت‌های حداقلی اتفاق می‌افتند، که تنها تفاوت بین مثال و جفت آن، جنسیت ضمیر در مقدمه است. عملکرد در Winogender هم با دقت و هم با امتیاز برابری جنسیتی اندازه‌گیری می‌شود: درصد حداقل جفت‌هایی که پیش‌بینی‌ها برای آنها یکسان است. توجه می‌کنیم که یک سیستم می‌تواند با حدس زدن یک کلاس برای همه نمونه‌ها به‌طور بی‌اهمیت یک امتیاز برابری جنسیتی کامل به دست آورد، بنابراین نمره برابری جنسیتی بالا بی‌معنی است مگر اینکه با دقت بالا همراه باشد. به عنوان یک آزمون تشخیصی سوگیری جنسیتی، ما طرحواره ها را دارای ارزش اخباری مثبت بالا و ارزش اخباری منفی پایین می بینیم. یعنی ممکن است وجود تعصب جنسیتی را در یک سیستم نشان دهند، اما عدم وجود آن را ثابت کنند.

  • صفحه اصلی : https://github.com/rudinger/winogender-schemas

  • حجم دانلود : 10.17 KiB

  • اندازه مجموعه داده : 69.75 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 356
  • ساختار ویژگی :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فرضیه متن رشته
idx تانسور int32
برچسب ClassLabel int64
فرضیه متن رشته
  • نقل قول :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.