- توضیحات :
TriviaqQA یک مجموعه داده درک مطلب است که شامل بیش از 650 هزار پرسش و پاسخ و شواهد سه گانه است. TriviaqQA شامل 95 هزار جفت پرسش-پاسخ است که توسط علاقه مندان به چیزهای بی اهمیت نوشته شده است و اسناد شواهدی که به طور مستقل جمع آوری شده اند، به طور متوسط 6 عدد در هر سوال، که نظارت از راه دور با کیفیت بالا را برای پاسخ دادن به سوالات فراهم می کند.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : http://nlp.cs.washington.edu/triviaqa/
کد منبع :
tfds.datasets.trivia_qa.Builder
نسخه ها :
-
1.1.0
(پیش فرض): بدون یادداشت انتشار.
-
ساختار ویژگی :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
پاسخ | FeaturesDict | |||
پاسخ / نام مستعار | دنباله (متن) | (هیچ یک،) | رشته | |
answer/matched_wiki_entity_name | متن | رشته | ||
answer/normalized_aliases | دنباله (متن) | (هیچ یک،) | رشته | |
answer/normalized_matched_wiki_entity_name | متن | رشته | ||
answer/normalized_value | متن | رشته | ||
پاسخ/نوع | متن | رشته | ||
پاسخ/ارزش | متن | رشته | ||
entity_pages | توالی | |||
entity_pages/doc_source | متن | رشته | ||
entity_pages/نام فایل | متن | رشته | ||
entity_pages/title | متن | رشته | ||
entity_pages/wiki_context | متن | رشته | ||
سوال | متن | رشته | ||
question_id | متن | رشته | ||
منبع_سوال | متن | رشته | ||
نتایج جستجو | توالی | |||
نتایج_جستجو/توضیحات | متن | رشته | ||
نتایج_جستجو/نام فایل | متن | رشته | ||
نتایج_جستجو/رتبه | تانسور | int32 | ||
search_results/search_context | متن | رشته | ||
نتایج_جستجو/عنوان | متن | رشته | ||
search_results/url | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (پیکربندی پیش فرض)
توضیحات پیکربندی : جفتهای پرسش و پاسخ که در آن همه اسناد برای یک سؤال معین شامل رشته (های) پاسخ هستند. شامل زمینه ویکی پدیا و نتایج جستجو می شود.
حجم دانلود :
2.48 GiB
حجم مجموعه داده :
14.99 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 17210 |
'train' | 138,384 |
'validation' | 18669 |
- مثالها ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
توضیحات پیکربندی : جفتهای پرسش و پاسخ که در آن همه اسناد برای یک سؤال معین شامل رشته (های) پاسخ هستند.
حجم دانلود :
2.48 GiB
حجم مجموعه داده :
196.84 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 17210 |
'train' | 138,384 |
'validation' | 18669 |
- مثالها ( tfds.as_dataframe ):
trivia_qa/فیلتر نشده
شرح پیکربندی : 110 هزار جفت پرسش و پاسخ برای QA دامنه باز که در آن همه اسناد برای یک سؤال معین شامل رشته(های) پاسخ نیستند. این باعث می شود مجموعه داده فیلتر نشده برای QA به سبک IR مناسب تر باشد. شامل زمینه ویکی پدیا و نتایج جستجو می شود.
حجم دانلود :
3.07 GiB
حجم مجموعه داده :
27.27 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 10,832 |
'train' | 87622 |
'validation' | 11,313 |
- مثالها ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
شرح پیکربندی : 110 هزار جفت پرسش و پاسخ برای QA دامنه باز که در آن همه اسناد برای یک سؤال معین شامل رشته(های) پاسخ نیستند. این باعث می شود مجموعه داده فیلتر نشده برای QA به سبک IR مناسب تر باشد.
حجم دانلود :
603.25 MiB
حجم مجموعه داده :
119.78 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 10,832 |
'train' | 87622 |
'validation' | 11,313 |
- مثالها ( tfds.as_dataframe ):
- توضیحات :
TriviaqQA یک مجموعه داده درک مطلب است که شامل بیش از 650 هزار پرسش و پاسخ و شواهد سه گانه است. TriviaqQA شامل 95 هزار جفت پرسش-پاسخ است که توسط علاقه مندان به چیزهای بی اهمیت نوشته شده است و اسناد شواهدی که به طور مستقل جمع آوری شده اند، به طور متوسط 6 عدد در هر سوال، که نظارت از راه دور با کیفیت بالا را برای پاسخ دادن به سوالات فراهم می کند.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : http://nlp.cs.washington.edu/triviaqa/
کد منبع :
tfds.datasets.trivia_qa.Builder
نسخه ها :
-
1.1.0
(پیش فرض): بدون یادداشت انتشار.
-
ساختار ویژگی :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=string)),
'matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
'normalized_value': Text(shape=(), dtype=string),
'type': Text(shape=(), dtype=string),
'value': Text(shape=(), dtype=string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'wiki_context': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'question_id': Text(shape=(), dtype=string),
'question_source': Text(shape=(), dtype=string),
'search_results': Sequence({
'description': Text(shape=(), dtype=string),
'filename': Text(shape=(), dtype=string),
'rank': int32,
'search_context': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
پاسخ | FeaturesDict | |||
پاسخ / نام مستعار | دنباله (متن) | (هیچ یک،) | رشته | |
answer/matched_wiki_entity_name | متن | رشته | ||
answer/normalized_aliases | دنباله (متن) | (هیچ یک،) | رشته | |
answer/normalized_matched_wiki_entity_name | متن | رشته | ||
answer/normalized_value | متن | رشته | ||
پاسخ/نوع | متن | رشته | ||
پاسخ/ارزش | متن | رشته | ||
entity_pages | توالی | |||
entity_pages/doc_source | متن | رشته | ||
entity_pages/نام فایل | متن | رشته | ||
entity_pages/title | متن | رشته | ||
entity_pages/wiki_context | متن | رشته | ||
سوال | متن | رشته | ||
question_id | متن | رشته | ||
منبع_سوال | متن | رشته | ||
نتایج جستجو | توالی | |||
نتایج_جستجو/توضیحات | متن | رشته | ||
نتایج_جستجو/نام فایل | متن | رشته | ||
نتایج_جستجو/رتبه | تانسور | int32 | ||
search_results/search_context | متن | رشته | ||
نتایج_جستجو/عنوان | متن | رشته | ||
search_results/url | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (پیکربندی پیش فرض)
توضیحات پیکربندی : جفتهای پرسش و پاسخ که در آن همه اسناد برای یک سؤال معین شامل رشته (های) پاسخ هستند. شامل زمینه ویکی پدیا و نتایج جستجو می شود.
حجم دانلود :
2.48 GiB
حجم مجموعه داده :
14.99 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 17210 |
'train' | 138,384 |
'validation' | 18669 |
- مثالها ( tfds.as_dataframe ):
trivia_qa/rc.nocontext
توضیحات پیکربندی : جفتهای پرسش و پاسخ که در آن همه اسناد برای یک سؤال معین شامل رشته (های) پاسخ هستند.
حجم دانلود :
2.48 GiB
حجم مجموعه داده :
196.84 MiB
ذخیره خودکار ( مستندات ): بله (تست، اعتبارسنجی)، فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 17210 |
'train' | 138,384 |
'validation' | 18669 |
- مثالها ( tfds.as_dataframe ):
trivia_qa/فیلتر نشده
شرح پیکربندی : 110 هزار جفت پرسش و پاسخ برای QA دامنه باز که در آن همه اسناد برای یک سؤال معین شامل رشته(های) پاسخ نیستند. این باعث می شود مجموعه داده فیلتر نشده برای QA به سبک IR مناسب تر باشد. شامل زمینه ویکی پدیا و نتایج جستجو می شود.
حجم دانلود :
3.07 GiB
حجم مجموعه داده :
27.27 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 10,832 |
'train' | 87622 |
'validation' | 11,313 |
- مثالها ( tfds.as_dataframe ):
trivia_qa/unfiltered.nocontext
شرح پیکربندی : 110 هزار جفت پرسش و پاسخ برای QA دامنه باز که در آن همه اسناد برای یک سؤال معین شامل رشته(های) پاسخ نیستند. این باعث می شود مجموعه داده فیلتر نشده برای QA به سبک IR مناسب تر باشد.
حجم دانلود :
603.25 MiB
حجم مجموعه داده :
119.78 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 10,832 |
'train' | 87622 |
'validation' | 11,313 |
- مثالها ( tfds.as_dataframe ):