tydi_qa

  • توضیحات :

TyDi QA یک مجموعه داده پاسخ‌گوی پرسش است که 11 زبان مختلف از نظر گونه‌شناسی را با 204 هزار جفت پرسش و پاسخ پوشش می‌دهد. زبان‌های TyDi QA با توجه به نوع‌شناسی‌شان - مجموعه‌ای از ویژگی‌های زبانی که هر زبان بیان می‌کند - متنوع هستند، به طوری که ما انتظار داریم مدل‌هایی که عملکرد خوبی در این مجموعه دارند در تعداد زیادی از زبان‌های جهان تعمیم پیدا کنند. این شامل پدیده های زبانی است که در مجموعه های فقط انگلیسی یافت نمی شوند. برای ارائه یک کار جستجوی اطلاعات واقعی و اجتناب از اثرات اولیه، سوالاتی توسط افرادی نوشته می‌شود که می‌خواهند پاسخ را بدانند، اما هنوز پاسخ را نمی‌دانند (برخلاف SQuAD و فرزندان آن) و داده‌ها مستقیماً در هر زبان جمع‌آوری می‌شوند. بدون استفاده از ترجمه (برخلاف MLQA و XQuAD).

تقسیم بندی های آموزشی:

'train': این وظیفه GoldP از مقاله اصلی TyDi QA [ https://arxiv.org/abs/2003.05002 ] است که دارای داده های آموزشی با برچسب زبان اصلی است.

'translate-train-*': این تقسیم‌بندی‌ها ترجمه‌های خودکار از انگلیسی به هر زبان مقصدی هستند که در خطوط پایه translate-train در مقاله XTREME [ https://arxiv.org/abs/2003.11080 ] استفاده می‌شوند. این به طور هدفمند داده‌های آموزشی غیرانگلیسی TyDiQA-GoldP را نادیده می‌گیرد تا سناریوی یادگیری انتقال را شبیه‌سازی کند که در آن داده‌های زبان اصلی در دسترس نیست و سازندگان سیستم باید به داده‌های انگلیسی برچسب‌دار به‌علاوه سیستم‌های ترجمه ماشینی موجود تکیه کنند.

به طور معمول، شما باید یا از قطار یا translate-train split استفاده کنید، اما نه از هر دو.

شکاف مثال ها
'train' 49,881
'translate-train-ar' 3,661
'translate-train-bn' 3,585
'translate-train-fi' 3,670
'translate-train-id' 3,667
'translate-train-ko' 3,607
'translate-train-ru' 3,394
'translate-train-sw' 3,622
'translate-train-te' 3,658
'validation' 5,077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • ساختار ویژگی :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
پاسخ می دهد توالی
answers/answer_start تانسور int32
پاسخ / متن متن رشته
متن نوشته متن رشته
شناسه تانسور رشته
سوال متن رشته
عنوان متن رشته
  • نقل قول :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (پیکربندی پیش فرض)