- תיאור :
מערך נתונים זה מכיל 23,659 צמדי הערכת PAWS מתורגמים על ידי אדם ו-296,406 צמדי אימון מתורגמים במכונה בשש שפות שונות מבחינה טיפולוגית:
- צָרְפָתִית
- ספרדית
- גֶרמָנִיָת
- סִינִית
- יַפָּנִית
- קוריאנית
לפרטים נוספים, עיין במאמר המצורף: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification בכתובת https://arxiv.org/abs/1908.11828
בדומה ל-PAWS Dataset, דוגמאות מחולקות לקטעי רכבת/פיתוח/בדיקה. כל הקבצים הם בפורמט tsv עם ארבע עמודות:
-
id
: מזהה ייחודי לכל זוג. -
sentence1
1 : המשפט הראשון. -
sentence2
2: המשפט השני. -
(noisy_)label
: תווית (רועשת) לכל זוג.
לכל תווית יש שני ערכים אפשריים: 0 מציין שלזוג יש משמעות שונה, בעוד ש-1 מציין שהזוג הוא פרפרזה.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/google-research-datasets/paws/tree/master/pawsx
קוד מקור :
tfds.datasets.paws_x_wiki.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
28.88 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
מבנה תכונה :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תווית | ClassLabel | int64 | ||
משפט 1 | טֶקסט | חוּט | ||
משפט 2 | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (תצורת ברירת המחדל)
תיאור תצורה : תורגם ל-de
גודל מערך נתונים :
15.27 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 49,380 |
'validation' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/iw
תיאור תצורה : תורגם ל-en
גודל מערך נתונים :
14.59 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 49,175 |
'validation' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/es
תיאור תצורה : תורגם ל-es
גודל מערך נתונים :
15.27 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 1,961 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/fr
תיאור תצורה : תורגם ל-fr
גודל מערך נתונים :
15.79 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 49,399 |
'validation' | 1,988 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/ja
תיאור תצורה : תורגם ל-ja
גודל מערך נתונים :
17.77 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/ko
תיאור תצורה : תורגם לקו
גודל מערך נתונים :
16.42 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,999 |
'train' | 49,164 |
'validation' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):
paws_x_wiki/zh
תיאור תצורה : תורגם ל-zh
גודל מערך נתונים :
13.20 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
- דוגמאות ( tfds.as_dataframe ):