- বর্ণনা :
স্ট্যানফোর্ড কোয়েশ্চেন অ্যানসারিং ডেটাসেট (SQuAD) হল একটি রিডিং কম্প্রিহেনশন ডেটাসেট, যা উইকিপিডিয়া নিবন্ধগুলির একটি সেটে ভিড় কর্মীর দ্বারা উত্থাপিত প্রশ্নগুলির সমন্বয়ে গঠিত, যেখানে প্রতিটি প্রশ্নের উত্তরটি পাঠ্যের একটি অংশ, বা স্প্যান, সংশ্লিষ্ট পাঠ্যাংশ বা প্রশ্ন থেকে উত্তরহীন হতে পারে।
অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন
সোর্স কোড :
tfds.datasets.squad.Builderসংস্করণ :
-
3.0.0(ডিফল্ট): অল্প সংখ্যক উদাহরণ সহ সমস্যা সমাধান করে (19) যেখানে প্রসঙ্গ সাদা-স্পেস অপসারণের কারণে উত্তরের স্প্যানগুলি ভুলভাবে সংযোজিত হয়েছে।
-
তত্ত্বাবধান করা কী (দেখুন
as_superviseddoc ):Noneচিত্র ( tfds.show_examples ): সমর্থিত নয়।
উদ্ধৃতি :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
স্কোয়াড/v1.1 (ডিফল্ট কনফিগারেশন)
কনফিগার বিবরণ : SQUAD এর সংস্করণ 1.1.0
ডাউনলোড আকার :
33.51 MiBডেটাসেটের আকার :
94.06 MiBস্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ
বিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'train' | ৮৭,৫৯৯ |
'validation' | 10,570 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
| বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
|---|---|---|---|---|
| ফিচারসডিক্ট | ||||
| উত্তর | ক্রম | |||
| উত্তর/উত্তর_শুরু | টেনসর | int32 | ||
| উত্তর/পাঠ্য | পাঠ্য | স্ট্রিং | ||
| প্রসঙ্গ | পাঠ্য | স্ট্রিং | ||
| আইডি | টেনসর | স্ট্রিং | ||
| প্রশ্ন | পাঠ্য | স্ট্রিং | ||
| শিরোনাম | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):
স্কোয়াড/v2.0
কনফিগারেশনের বিবরণ : SQUAD এর সংস্করণ 2.0.0
ডাউনলোড
44.34 MiBডেটাসেটের আকার :
148.54 MiBস্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ (বৈধকরণ), শুধুমাত্র যখন
shuffle_files=False(ট্রেন)বিভাজন :
| বিভক্ত | উদাহরণ |
|---|---|
'train' | 130,319 |
'validation' | 11,873 |
- বৈশিষ্ট্য গঠন :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- বৈশিষ্ট্য ডকুমেন্টেশন :
| বৈশিষ্ট্য | ক্লাস | আকৃতি | ডিটাইপ | বর্ণনা |
|---|---|---|---|---|
| ফিচারসডিক্ট | ||||
| উত্তর | ক্রম | |||
| উত্তর/উত্তর_শুরু | টেনসর | int32 | ||
| উত্তর/পাঠ্য | পাঠ্য | স্ট্রিং | ||
| প্রসঙ্গ | পাঠ্য | স্ট্রিং | ||
| আইডি | টেনসর | স্ট্রিং | ||
| অসম্ভব | টেনসর | bool | ||
| যুক্তিসঙ্গত_উত্তর | ক্রম | |||
| প্রশংসনীয়_উত্তর/উত্তর_শুরু | টেনসর | int32 | ||
| প্রশংসনীয়_উত্তর/পাঠ্য | পাঠ্য | স্ট্রিং | ||
| প্রশ্ন | পাঠ্য | স্ট্রিং | ||
| শিরোনাম | পাঠ্য | স্ট্রিং |
- উদাহরণ ( tfds.as_dataframe ):