- תיאור :
סטנפורד שאלות תשובות נתונים (SQuAD) הוא מערך נתונים של הבנת הנקרא, המורכב משאלות שהועלו על ידי עובדי המונים בקבוצה של מאמרים בוויקיפדיה, כאשר התשובה לכל שאלה היא קטע של טקסט, או טווח, מקטע הקריאה המתאים, או מהשאלה עלול להיות בלתי ניתן לתשובה.
תיעוד נוסף : חקור על ניירות עם קוד
קוד מקור :
tfds.datasets.squad.Builder
גרסאות :
-
3.0.0
(ברירת מחדל): פותר בעיה במספר קטן של דוגמאות (19) שבהן טווחי התשובות לא מיושרים עקב הסרת רווח לבן בהקשר.
-
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
squad/v1.1 (תצורת ברירת המחדל)
תיאור תצורה : גרסה 1.1.0 של SQUAD
גודל הורדה :
33.51 MiB
גודל מערך נתונים :
94.06 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 87,599 |
'validation' | 10,570 |
- מבנה תכונה :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תשובות | סדר פעולות | |||
answers/answer_start | מוֹתֵחַ | int32 | ||
תשובות/טקסט | טֶקסט | חוּט | ||
הֶקשֵׁר | טֶקסט | חוּט | ||
תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
שְׁאֵלָה | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):
squad/v2.0
תיאור תצורה : גרסה 2.0.0 של SQUAD
גודל הורדה :
44.34 MiB
גודל ערכת נתונים:
148.54 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 130,319 |
'validation' | 11,873 |
- מבנה תכונה :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תשובות | סדר פעולות | |||
answers/answer_start | מוֹתֵחַ | int32 | ||
תשובות/טקסט | טֶקסט | חוּט | ||
הֶקשֵׁר | טֶקסט | חוּט | ||
תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
בלתי אפשרי | מוֹתֵחַ | bool | ||
תשובות_סבירות | סדר פעולות | |||
plausible_answers/answer_start | מוֹתֵחַ | int32 | ||
סבירות_תשובות/טקסט | טֶקסט | חוּט | ||
שְׁאֵלָה | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):