- توضیحات :
این مجموعه داده شامل 23659 جفت ارزیابی PAWS ترجمه شده توسط انسان و 296406 جفت آموزشی ترجمه شده با ماشین به شش زبان مختلف از نظر گونهشناسی است:
- فرانسوی
- اسپانیایی
- آلمانی
- چینی ها
- ژاپنی
- کره ای
برای جزئیات بیشتر، به مقاله همراه مراجعه کنید: PAWS-X: مجموعه داده های متضاد متقابل بین زبانی برای شناسایی پارافراسی در https://arxiv.org/abs/1908.11828
مشابه مجموعه دادههای PAWS، نمونهها به بخشهای Train/Dev/Test تقسیم میشوند. تمامی فایل ها با فرمت tsv و چهار ستون هستند:
شناسه یک شناسه منحصر به فرد برای هر جفت جمله 1 جمله اول 2 برچسب جمله دوم (noisy_) label (Noisy) برای هر جفت
هر برچسب دارای دو مقدار ممکن است: 0 نشان می دهد که جفت معنای متفاوتی دارد، در حالی که 1 نشان می دهد که جفت یک نقل قول است.
صفحه اصلی : https://github.com/google-research-datasets/paws/tree/master/pawsx
کد منبع :
tfds.text.paws_x_wiki.PawsXWiki
نسخه ها :
-
1.0.0
(پیشفرض): بدون یادداشت انتشار.
-
حجم دانلود :
28.88 MiB
ذخیره خودکار ( اسناد ): بله
ساختار ویژگی :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
برچسب | ClassLabel | tf.int64 | ||
جمله 1 | متن | tf.string | ||
جمله 2 | متن | tf.string |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ): وجود ندارد.
نقل قول :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (پیکربندی پیشفرض)
توضیحات پیکربندی : به de ترجمه شده است
حجم مجموعه داده :
15.27 MiB
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,380 |
'validation' | 2000 |
paws_x_wiki/en
توضیحات پیکربندی : به en ترجمه شده است
حجم مجموعه داده :
14.59 MiB
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,175 |
'validation' | 2000 |
paws_x_wiki/es
توضیحات پیکربندی : به es ترجمه شده است
حجم مجموعه داده :
15.27 MiB
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,401 |
'validation' | 1,961 |
paws_x_wiki/fr
توضیحات پیکربندی : ترجمه شده به fr
حجم مجموعه داده :
15.79 MiB
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,399 |
'validation' | 1,988 |
paws_x_wiki/ja
توضیحات پیکربندی : به ja ترجمه شده است
حجم مجموعه داده :
17.77 MiB
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,401 |
'validation' | 2000 |
paws_x_wiki/ko
توضیحات پیکربندی : به ko ترجمه شده است
حجم مجموعه داده :
16.42 MiB
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 1999 |
'train' | 49,164 |
'validation' | 2000 |
paws_x_wiki/zh
توضیحات پیکربندی : به zh ترجمه شده است
حجم مجموعه داده :
13.20 MiB
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 2000 |
'train' | 49,401 |
'validation' | 2000 |