- توضیحات :
این مجموعه داده شامل 23659 جفت ارزیابی PAWS ترجمه شده توسط انسان و 296406 جفت آموزشی ترجمه شده ماشینی به شش زبان از نظر گونهشناسی متمایز است:
- فرانسوی
- اسپانیایی
- آلمانی
- چینی ها
- ژاپنی
- کره ای
برای جزئیات بیشتر، مقاله همراه را ببینید: PAWS-X: مجموعه داده های متضاد متقابل بین زبانی برای شناسایی پارافراسی در https://arxiv.org/abs/1908.11828
مشابه PAWS Dataset، نمونهها به بخشهای Train/Dev/Test تقسیم میشوند. همه فایل ها با فرمت tsv با چهار ستون هستند:
-
id
: یک شناسه منحصر به فرد برای هر جفت. -
sentence1
1: جمله اول. -
sentence2
2: جمله دوم. -
(noisy_)label
: (نویز) برچسب برای هر جفت.
هر برچسب دارای دو مقدار ممکن است: 0 نشان می دهد که جفت معنای متفاوتی دارد، در حالی که 1 نشان می دهد که جفت یک پارافراسی است.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/google-research-datasets/paws/tree/master/pawsx
کد منبع :
tfds.datasets.paws_x_wiki.Builder
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
حجم دانلود :
28.88 MiB
ذخیره خودکار ( اسناد ): بله
ساختار ویژگی :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
برچسب | ClassLabel | int64 | ||
جمله 1 | متن | رشته | ||
جمله 2 | متن | رشته |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (پیکربندی پیشفرض)
توضیحات پیکربندی : به de ترجمه شده است
حجم مجموعه داده :
15.27 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,380 |
'validation' | 2000 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/en
توضیحات پیکربندی : ترجمه شده به en
حجم مجموعه داده :
14.59 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,175 |
'validation' | 2000 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/es
توضیحات پیکربندی : به es ترجمه شده است
حجم مجموعه داده :
15.27 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,401 |
'validation' | 1,961 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/fr
توضیحات پیکربندی : ترجمه شده به fr
حجم مجموعه داده :
15.79 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,399 |
'validation' | 1,988 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/ja
توضیحات پیکربندی : به ja ترجمه شده است
حجم مجموعه داده :
17.77 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,401 |
'validation' | 2000 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/ko
توضیحات پیکربندی : به ko ترجمه شده است
حجم مجموعه داده :
16.42 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1999 |
'train' | 49,164 |
'validation' | 2000 |
- مثالها ( tfds.as_dataframe ):
paws_x_wiki/zh
توضیحات پیکربندی : به zh ترجمه شده است
حجم مجموعه داده :
13.20 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,401 |
'validation' | 2000 |
- مثالها ( tfds.as_dataframe ):