xquad

  • תיאור :

XQuAD (Cross-lingual Question Answering Dataset) הוא מערך נתונים בנצ'מרק להערכת ביצועי מענה על שאלות חוצות לשוניות. מערך הנתונים מורכב מתת-קבוצה של 240 פסקאות ו-1190 זוגות שאלות ותשובות ממערך הפיתוח של SQuAD v1.1 (Rajpurkar et al., 2016) יחד עם התרגומים המקצועיים שלהם לעשר שפות: ספרדית, גרמנית, יוונית, רוסית, טורקית , ערבית, וייטנאמית, תאילנדית, סינית והינדית. כתוצאה מכך, מערך הנתונים מקביל לחלוטין על פני 11 שפות. כדי להפעיל את XQuAD בהגדרת ברירת המחדל של Zero-shot, השתמש בנתוני ההדרכה והאימות של SQuAD v1.1 כאן: https://www.tensorflow.org/datasets/catalog/squad

אנו כוללים גם פיצולים של "תרגם-רכב", "תרגום-מפתח" ו-"תרגום-מבחן" עבור כל שפה שאינה אנגלית מ-XTREME (Hu et al., 2020). ניתן להשתמש בהם להפעלת XQuAD בהגדרות "תרגם-רכבת" או "תרגם-מבחן".

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תשובות סדר פעולות
answers/answer_start מוֹתֵחַ int32
תשובות/טקסט טֶקסט חוּט
הֶקשֵׁר טֶקסט חוּט
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
שְׁאֵלָה טֶקסט חוּט
כותרת טֶקסט חוּט
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (תצורת ברירת המחדל)

  • תיאור תצורה : פיצול מבחן XQuAD 'ar', עם פיצולי תרגום-רכבת/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 420.97 MiB

  • גודל ערכת נתונים: 134.83 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,541
'translate-test' 1,151
'translate-train' 86,787

xquad/de

  • תיאור תצורה : פיצול מבחן XQuAD 'de', עם פיצולי תרגום-רכבת/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 127.04 MiB

  • גודל ערכת נתונים: 98.80 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,371
'translate-test' 1,168
'translate-train' 82,603

xquad/el

  • תיאור תצורה : פיצול מבחן XQuAD 'el', עם פיצולי תרגום-רכבת/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 499.40 MiB

  • גודל ערכת נתונים: 157.90 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר shuffle_files=False (translate-train)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,100
'translate-test' 1,182
'translate-train' 79,946

xquad/es

  • תיאור תצורה : פיצול מבחן XQuAD 'es', עם פיצולי translate-train/translate-dev/translate-test בתרגום מכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 138.41 MiB

  • גודל מערך נתונים : 104.96 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,566
'translate-test' 1,188
'translate-train' 87,488

xquad/היי

  • תיאור תצורה : פיצול מבחן 'היי' של XQuAD, עם פיצולי תרגום-רכב/תרגום-מפתח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 472.23 MiB

  • גודל ערכת נתונים: 207.85 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר shuffle_files=False (translate-train)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,536
'translate-test' 1,184
'translate-train' 85,804

xquad/ru

  • תיאור תצורה : פיצול מבחן XQuAD 'ru', עם פיצולי תרגום-רכבת/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 513.80 MiB

  • גודל מערך נתונים : 159.38 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר shuffle_files=False (translate-train)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,469
'translate-test' 1,190
'translate-train' 84,869

xquad/th

  • תיאור תצורה : פיצול הבדיקה 'ה' של XQuAD, עם פיצולי תרגום-רכבת/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 461.54 MiB

  • גודל מערך נתונים : 199.57 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר shuffle_files=False (translate-train)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,516
'translate-test' 1,157
'translate-train' 85,846

xquad/tr

  • תיאור תצורה : פיצול מבחן XQuAD 'tr', עם פיצולים מתורגמים ל-translate-train/translate-dev/translate-test מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 151.08 MiB

  • גודל מערך נתונים : 97.56 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,535
'translate-test' 1,112
'translate-train' 86,511

xquad/vi

  • תיאור תצורה : פיצול מבחן XQuAD 'vi', עם פיצולי תרגום-רכב/תרגום-מפתח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 218.09 MiB

  • גודל ערכת נתונים: 120.03 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,555
'translate-test' 1,178
'translate-train' 87,187

xquad/zh

  • תיאור תצורה : פיצול מבחן XQuAD 'zh', עם פיצולי תרגום-רכב/תרגום-מפתח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 174.57 MiB

  • גודל ערכת נתונים: 80.79 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,475
'translate-test' 1,186
'translate-train' 85,700

xquad/en

  • תיאור תצורה : XQuAD 'en' test split.

  • גודל הורדה : 595.10 KiB

  • גודל מערך נתונים : 1.19 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190