- توضیحات :
TyDi QA یک مجموعه داده پاسخگوی پرسش است که 11 زبان مختلف از نظر گونهشناسی را با 204 هزار جفت پرسش و پاسخ پوشش میدهد. زبانهای TyDi QA با توجه به نوعشناسیشان - مجموعهای از ویژگیهای زبانی که هر زبان بیان میکند - متنوع هستند، به طوری که ما انتظار داریم مدلهایی که عملکرد خوبی در این مجموعه دارند در تعداد زیادی از زبانهای جهان تعمیم پیدا کنند. این شامل پدیده های زبانی است که در مجموعه های فقط انگلیسی یافت نمی شوند. برای ارائه یک کار جستجوی اطلاعات واقعی و اجتناب از اثرات اولیه، سوالاتی توسط افرادی نوشته میشود که میخواهند پاسخ را بدانند، اما هنوز پاسخ را نمیدانند (برخلاف SQuAD و فرزندان آن) و دادهها مستقیماً در هر زبان جمعآوری میشوند. بدون استفاده از ترجمه (برخلاف MLQA و XQuAD).
تقسیم بندی های آموزشی:
'train': این وظیفه GoldP از مقاله اصلی TyDi QA [ https://arxiv.org/abs/2003.05002 ] است که دارای داده های آموزشی با برچسب زبان اصلی است.
'translate-train-*': این تقسیمبندیها ترجمههای خودکار از انگلیسی به هر زبان مقصدی هستند که در خطوط پایه translate-train در مقاله XTREME [ https://arxiv.org/abs/2003.11080 ] استفاده میشوند. این به طور هدفمند دادههای آموزشی غیرانگلیسی TyDiQA-GoldP را نادیده میگیرد تا سناریوی یادگیری انتقال را شبیهسازی کند که در آن دادههای زبان اصلی در دسترس نیست و سازندگان سیستم باید به دادههای انگلیسی برچسبدار بهعلاوه سیستمهای ترجمه ماشینی موجود تکیه کنند.
به طور معمول، شما باید یا از قطار یا translate-train split استفاده کنید، اما نه از هر دو.
اسناد اضافی : کاوش در کاغذها با کد
توضیحات پیکربندی : وظیفه پاساژ طلا (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
صفحه اصلی : https://github.com/google-research-datasets/tydiqa
کد منبع :
tfds.question_answering.TydiQA
نسخه ها :
-
3.0.0
(پیشفرض): مشکل تعدادی از مثالها را برطرف میکند که در آنها به دلیل حذف فضای سفید متن، فاصلههای پاسخها نادرست است. این تغییر تقریباً 25 درصد از نمونههای قطار و برنامهنویس را تحت تأثیر قرار میدهد.
-
حجم دانلود :
121.30 MiB
حجم مجموعه داده :
98.35 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 49,881 |
'translate-train-ar' | 3,661 |
'translate-train-bn' | 3,585 |
'translate-train-fi' | 3,670 |
'translate-train-id' | 3,667 |
'translate-train-ko' | 3,607 |
'translate-train-ru' | 3,394 |
'translate-train-sw' | 3,622 |
'translate-train-te' | 3,658 |
'validation' | 5,077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- ساختار ویژگی :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
پاسخ می دهد | توالی | |||
answers/answer_start | تانسور | int32 | ||
پاسخ / متن | متن | رشته | ||
متن نوشته | متن | رشته | ||
شناسه | تانسور | رشته | ||
سوال | متن | رشته | ||
عنوان | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):
- نقل قول :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}