- תיאור :
מערכי נתונים קיימים של זיהוי פרפרזה חסרים צמדי משפטים בעלי חפיפה מילונית גבוהה מבלי להיות פרפראזות. דוגמניות שאומנו על נתונים כאלה לא מצליחות להבחין בין זוגות כמו טיסות מניו יורק לפלורידה וטיסות מפלורידה לניו יורק. מערך נתונים זה מכיל 108,463 צמדים המסומנים בתווית אנושית ו-656,000 צמדים בעלי תווית רועשת, המציגים את החשיבות של מודלים של מידע על מבנה, הקשר וסדר מילים לבעיה של זיהוי פרפרזה.
לפרטים נוספים, ראה את המאמר המצורף: PAWS: Paraphrase Adversaries from Word Scrambling בכתובת https://arxiv.org/abs/1904.01130
קורפוס זה מכיל זוגות שנוצרו מדפי ויקיפדיה, המכילים זוגות הנוצרים משיטות החלפת מילים וגם משיטות תרגום אחורי. לכל הזוגות יש שיפוט אנושי הן בפרפרזה והן בשטף, והם מחולקים לקטעי רכבת/פיתוח/מבחן.
כל הקבצים הם בפורמט tsv עם ארבע עמודות:
-
id
: מזהה ייחודי לכל זוג. -
sentence1
1 : המשפט הראשון. -
sentence2
2: המשפט השני. -
(noisy_)label
: תווית (רועשת) לכל זוג.
לכל תווית יש שני ערכים אפשריים: 0 מציין שלזוג יש משמעות שונה, בעוד ש-1 מציין שהזוג הוא פרפרזה.
תיעוד נוסף : חקור על ניירות עם קוד
קוד מקור :
tfds.datasets.paws_wiki.Builder
גרסאות :
-
1.0.0
: גרסה ראשונית. -
1.1.0
(ברירת מחדל): מוסיף תצורות לקבוצות משנה שונות ותמיכה בטקסט גולמי.
-
גודל הורדה :
57.47 MiB
מבנה תכונה :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תווית | ClassLabel | int64 | ||
משפט 1 | טֶקסט | חוּט | ||
משפט 2 | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (תצורת ברירת המחדל)
תיאור תצורה : קבוצת משנה: labeled_final tokenized: נכון
גודל ערכת נתונים:
17.96 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- דוגמאות ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
תיאור תצורה : קבוצת משנה: labeled_final tokenized: False
גודל ערכת נתונים:
17.57 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- דוגמאות ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
תיאור תצורה : תת-קבוצה: labeled_swap tokenized: נכון
גודל ערכת נתונים :
8.79 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 30,397 |
- דוגמאות ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
תיאור תצורה : תת-קבוצה: labeled_swap tokenized: False
גודל ערכת נתונים :
8.60 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 30,397 |
- דוגמאות ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
תיאור תצורה : קבוצת משנה: unlabeled_final tokenized: נכון
גודל ערכת נתונים:
177.89 MiB
שמור אוטומטי במטמון ( תיעוד ): כן (אימות), רק כאשר
shuffle_files=False
(רכבת)פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 645,652 |
'validation' | 10,000 |
- דוגמאות ( tfds.as_dataframe ):