- תיאור :
XQuAD (Cross-lingual Question Answering Dataset) הוא מערך נתונים בנצ'מרק להערכת ביצועי מענה על שאלות חוצות לשוניות. מערך הנתונים מורכב מתת-קבוצה של 240 פסקאות ו-1190 זוגות שאלות ותשובות ממערך הפיתוח של SQuAD v1.1 (Rajpurkar et al., 2016) יחד עם התרגומים המקצועיים שלהם לעשר שפות: ספרדית, גרמנית, יוונית, רוסית, טורקית , ערבית, וייטנאמית, תאילנדית, סינית והינדית. כתוצאה מכך, מערך הנתונים מקביל לחלוטין על פני 11 שפות. כדי להפעיל את XQuAD בהגדרת ברירת המחדל של Zero-shot, השתמש בנתוני ההדרכה והאימות של SQuAD v1.1 כאן: https://www.tensorflow.org/datasets/catalog/squad
אנו כוללים גם פיצולים של "תרגם-רכב", "תרגום-מפתח" ו-"תרגום-מבחן" עבור כל שפה שאינה אנגלית מ-XTREME (Hu et al., 2020). ניתן להשתמש בהם להפעלת XQuAD בהגדרות "תרגם-רכבת" או "תרגם-מבחן".
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/deepmind/xquad
קוד מקור :
tfds.question_answering.Xquad
גרסאות :
-
3.0.0
(ברירת מחדל): מתקן בעיה במספר דוגמאות שבהן טווחי התשובות לא מיושרים עקב הסרת רווח לבן בהקשר. שינוי זה משפיע על כ-14% מדוגמאות הבדיקות.
-
מבנה תכונה :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תשובות | סדר פעולות | |||
answers/answer_start | מוֹתֵחַ | int32 | ||
תשובות/טקסט | טֶקסט | חוּט | ||
הֶקשֵׁר | טֶקסט | חוּט | ||
תְעוּדַת זֶהוּת | מוֹתֵחַ | חוּט | ||
שְׁאֵלָה | טֶקסט | חוּט | ||
כותרת | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{Artetxe:etal:2019,
author = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
title = {On the cross-lingual transferability of monolingual representations},
journal = {CoRR},
volume = {abs/1910.11856},
year = {2019},
archivePrefix = {arXiv},
eprint = {1910.11856}
}
xquad/ar (תצורת ברירת המחדל)
תיאור תצורה : פיצול מבחן XQuAD 'ar', עם פיצולי תרגום-רכבת/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).
גודל הורדה :
420.97 MiB
גודל ערכת נתונים:
134.83 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,190 |
'translate-dev' | 10,541 |
'translate-test' | 1,151 |
'translate-train' | 86,787 |
- דוגמאות ( tfds.as_dataframe ):
xquad/de
תיאור תצורה : פיצול מבחן XQuAD 'de', עם פיצולי תרגום-רכבת/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).
גודל הורדה :
127.04 MiB
גודל ערכת נתונים:
98.80 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,190 |
'translate-dev' | 10,371 |
'translate-test' | 1,168 |
'translate-train' | 82,603 |
- דוגמאות ( tfds.as_dataframe ):
xquad/el
תיאור תצורה : פיצול מבחן XQuAD 'el', עם פיצולי תרגום-רכבת/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).
גודל הורדה :
499.40 MiB
גודל ערכת נתונים:
157.90 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר
shuffle_files=False
(translate-train)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,190 |
'translate-dev' | 10,100 |
'translate-test' | 1,182 |
'translate-train' | 79,946 |
- דוגמאות ( tfds.as_dataframe ):
xquad/es
תיאור תצורה : פיצול מבחן XQuAD 'es', עם פיצולי translate-train/translate-dev/translate-test בתרגום מכונה מ-XTREME (Hu et al., 2020).
גודל הורדה :
138.41 MiB
גודל מערך נתונים :
104.96 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,190 |
'translate-dev' | 10,566 |
'translate-test' | 1,188 |
'translate-train' | 87,488 |
- דוגמאות ( tfds.as_dataframe ):
xquad/היי
תיאור תצורה : פיצול מבחן 'היי' של XQuAD, עם פיצולי תרגום-רכב/תרגום-מפתח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).
גודל הורדה :
472.23 MiB
גודל ערכת נתונים:
207.85 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר
shuffle_files=False
(translate-train)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,190 |
'translate-dev' | 10,536 |
'translate-test' | 1,184 |
'translate-train' | 85,804 |
- דוגמאות ( tfds.as_dataframe ):
xquad/ru
תיאור תצורה : פיצול מבחן XQuAD 'ru', עם פיצולי תרגום-רכבת/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).
גודל הורדה :
513.80 MiB
גודל מערך נתונים :
159.38 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר
shuffle_files=False
(translate-train)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,190 |
'translate-dev' | 10,469 |
'translate-test' | 1,190 |
'translate-train' | 84,869 |
- דוגמאות ( tfds.as_dataframe ):
xquad/th
תיאור תצורה : פיצול הבדיקה 'ה' של XQuAD, עם פיצולי תרגום-רכבת/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).
גודל הורדה :
461.54 MiB
גודל מערך נתונים :
199.57 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר
shuffle_files=False
(translate-train)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,190 |
'translate-dev' | 10,516 |
'translate-test' | 1,157 |
'translate-train' | 85,846 |
- דוגמאות ( tfds.as_dataframe ):
xquad/tr
תיאור תצורה : פיצול מבחן XQuAD 'tr', עם פיצולים מתורגמים ל-translate-train/translate-dev/translate-test מ-XTREME (Hu et al., 2020).
גודל הורדה :
151.08 MiB
גודל מערך נתונים :
97.56 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,190 |
'translate-dev' | 10,535 |
'translate-test' | 1,112 |
'translate-train' | 86,511 |
- דוגמאות ( tfds.as_dataframe ):
xquad/vi
תיאור תצורה : פיצול מבחן XQuAD 'vi', עם פיצולי תרגום-רכב/תרגום-מפתח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).
גודל הורדה :
218.09 MiB
גודל ערכת נתונים:
120.03 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,190 |
'translate-dev' | 10,555 |
'translate-test' | 1,178 |
'translate-train' | 87,187 |
- דוגמאות ( tfds.as_dataframe ):
xquad/zh
תיאור תצורה : פיצול מבחן XQuAD 'zh', עם פיצולי תרגום-רכב/תרגום-מפתח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).
גודל הורדה :
174.57 MiB
גודל ערכת נתונים:
80.79 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,190 |
'translate-dev' | 10,475 |
'translate-test' | 1,186 |
'translate-train' | 85,700 |
- דוגמאות ( tfds.as_dataframe ):
xquad/en
תיאור תצורה : XQuAD 'en' test split.
גודל הורדה :
595.10 KiB
גודל מערך נתונים :
1.19 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,190 |
- דוגמאות ( tfds.as_dataframe ):