- توضیحات :
مجموعه داده پاسخ به پرسش استنفورد (SQuAD) یک مجموعه داده درک مطلب است که شامل سؤالاتی است که توسط جمعی از مقالات ویکیپدیا مطرح میشود، که در آن پاسخ به هر سؤال بخشی از متن یا گسترهای از متن خوانده شده یا سؤال است. ممکن است بی پاسخ باشد
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://rajpurkar.github.io/SQuAD-explorer/
کد منبع :
tfds.datasets.squad.Builder
نسخه ها :
-
3.0.0
(پیشفرض): مشکل تعداد مثالهای کم (19) را که در آن به دلیل حذف فضای سفید متن، گستره پاسخها نامناسب است، برطرف میکند.
-
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
squad/v1.1 (پیکربندی پیش فرض)
توضیحات پیکربندی : نسخه 1.1.0 SQUAD
حجم دانلود :
33.51 MiB
حجم مجموعه داده :
94.06 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 87599 |
'validation' | 10,570 |
- ساختار ویژگی :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
پاسخ می دهد | توالی | |||
answers/answer_start | تانسور | int32 | ||
پاسخ / متن | متن | رشته | ||
متن نوشته | متن | رشته | ||
شناسه | تانسور | رشته | ||
سوال | متن | رشته | ||
عنوان | متن | رشته |
- مثالها ( tfds.as_dataframe ):
squad/v2.0
توضیحات پیکربندی : نسخه 2.0.0 SQUAD
حجم دانلود :
44.34 MiB
حجم مجموعه داده :
148.54 MiB
ذخیره خودکار ( مستندات ): بله (تایید اعتبار)، فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 130,319 |
'validation' | 11873 |
- ساختار ویژگی :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
پاسخ می دهد | توالی | |||
answers/answer_start | تانسور | int32 | ||
پاسخ / متن | متن | رشته | ||
متن نوشته | متن | رشته | ||
شناسه | تانسور | رشته | ||
غیر ممکن است | تانسور | بوول | ||
پاسخ های قابل قبول | توالی | |||
plusible_answers/answer_start | تانسور | int32 | ||
پاسخ های قابل قبول/متن | متن | رشته | ||
سوال | متن | رشته | ||
عنوان | متن | رشته |
- مثالها ( tfds.as_dataframe ):