- توضیحات :
مجموعه دادههای شناسایی بازنویسی موجود فاقد جفتجملههایی هستند که همپوشانی واژگانی بالایی دارند، بدون اینکه نقلباز باشند. مدلهایی که بر روی چنین دادههایی آموزش دیدهاند، قادر به تشخیص جفتهایی مانند پرواز از نیویورک به فلوریدا و پرواز از فلوریدا به نیویورک نیستند. این مجموعه داده شامل 108463 جفت برچسبگذاری شده توسط انسان و 656 هزار جفت برچسبگذاری شده با نویز است که اهمیت مدلسازی ساختار، بافت و اطلاعات ترتیب کلمه را برای مشکل شناسایی بازنویسی نشان میدهد.
برای جزئیات بیشتر، به مقاله همراه مراجعه کنید: PAWS: Paraphrase Adversaries from Word Scrambling در https://arxiv.org/abs/1904.01130
این مجموعه شامل جفتهایی است که از صفحات ویکیپدیا تولید شدهاند، که شامل جفتهایی است که از هر دو روش جابجایی کلمه و ترجمه برگشتی ایجاد میشوند. همه جفتها قضاوتهای انسانی هم در بازنویسی و هم روانی دارند و به بخشهای Train/Dev/Test تقسیم میشوند.
همه فایل ها با فرمت tsv با چهار ستون هستند:
-
id
: یک شناسه منحصر به فرد برای هر جفت. -
sentence1
1: جمله اول. -
sentence2
2: جمله دوم. -
(noisy_)label
: (نویز) برچسب برای هر جفت.
هر برچسب دارای دو مقدار ممکن است: 0 نشان می دهد که جفت معنای متفاوتی دارد، در حالی که 1 نشان می دهد که جفت یک پارافراسی است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/google-research-datasets/paws
کد منبع :
tfds.datasets.paws_wiki.Builder
نسخه ها :
-
1.0.0
: نسخه اولیه. -
1.1.0
(پیش فرض): تنظیمات را به زیر مجموعه های مختلف اضافه می کند و از متن خام پشتیبانی می کند.
-
حجم دانلود :
57.47 MiB
ساختار ویژگی :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
برچسب | ClassLabel | int64 | ||
جمله 1 | متن | رشته | ||
جمله 2 | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (پیکربندی پیشفرض)
توضیحات پیکربندی : زیر مجموعه: labeled_final tokenized: True
حجم مجموعه داده :
17.96 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 8000 |
'train' | 49,401 |
'validation' | 8000 |
- مثالها ( tfds.as_dataframe ):
paws_wiki/labeled_final_raw
توضیحات پیکربندی : زیر مجموعه: labeled_final tokenized: False
حجم مجموعه داده :
17.57 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 8000 |
'train' | 49,401 |
'validation' | 8000 |
- مثالها ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
توضیحات پیکربندی : زیر مجموعه: labeled_swap tokenized: True
حجم مجموعه داده :
8.79 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 30,397 |
- مثالها ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
توضیحات پیکربندی : زیر مجموعه: labeled_swap tokenized: False
حجم مجموعه داده :
8.60 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 30,397 |
- مثالها ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
توضیحات پیکربندی : زیر مجموعه: unlabeled_final tokenized: درست است
حجم مجموعه داده :
177.89 MiB
ذخیرهسازی خودکار ( مستندات ): بله (تایید اعتبار)، فقط زمانی که
shuffle_files=False
(قطار)تقسیمات :
شکاف | مثال ها |
---|---|
'train' | 645652 |
'validation' | 10000 |
- مثالها ( tfds.as_dataframe ):