- विवरण :
इस डेटासेट में 23,659 मानव अनुवादित PAWS मूल्यांकन जोड़े और 296,406 मशीन अनुवादित प्रशिक्षण जोड़े छह विशिष्ट भाषाओं में हैं:
- फ्रेंच
- स्पैनिश
- जर्मन
- चीनी
- जापानी
- कोरियाई
अधिक जानकारी के लिए, संलग्न पेपर देखें: PAWS-X: पैराफ्रेज पहचान के लिए एक क्रॉस-लिंगुअल एडवरसैरियल डेटासेट https://arxiv.org/abs/1908.11828 पर
PAWS डेटासेट के समान, उदाहरण ट्रेन/देव/टेस्ट अनुभागों में विभाजित हैं। सभी फाइलें चार कॉलम के साथ tsv फॉर्मेट में हैं:
id प्रत्येक जोड़ी वाक्य के लिए एक अद्वितीय id1 पहला वाक्य वाक्य2 प्रत्येक जोड़ी के लिए दूसरा वाक्य (noisy_)लेबल (Noisy) लेबल
प्रत्येक लेबल में दो संभावित मान होते हैं: 0 इंगित करता है कि जोड़ी का अलग अर्थ है, जबकि 1 इंगित करता है कि जोड़ी एक पैराफ्रेज़ है।
होमपेज : https://github.com/google-research-datasets/paws/tree/master/pawsx
स्रोत कोड :
tfds.text.paws_x_wiki.PawsXWiki
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): कोई रिलीज नोट नहीं।
-
डाउनलोड आकार :
28.88 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
फ़ीचर संरचना :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
विशेषताएंडिक्ट | ||||
लेबल | क्लासलेबल | tf.int64 | ||
वाक्य1 | मूलपाठ | tf.स्ट्रिंग | ||
वाक्य 2 | मूलपाठ | tf.स्ट्रिंग |
पर्यवेक्षित कुंजी (
as_supervised
doc देखें):None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ): मौजूद नहीं है।
उद्धरण :
@InProceedings{pawsx2019emnlp,
title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
booktitle = {Proc. of EMNLP},
year = {2019}
}
paws_x_wiki/de (डिफ़ॉल्ट कॉन्फ़िगरेशन)
विन्यास विवरण : de . में अनुवादित
डेटासेट का आकार :
15.27 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,380 |
'validation' | 2,000 |
paws_x_wiki/hi
विन्यास विवरण : en . में अनुवादित
डेटासेट का आकार :
14.59 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,175 |
'validation' | 2,000 |
paws_x_wiki/es
कॉन्फ़िग विवरण : es . में अनुवादित
डेटासेट का आकार :
15.27 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 1,961 |
पंजा_x_wiki/fr
कॉन्फिग विवरण : fr . में अनुवादित
डेटासेट का आकार :
15.79 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,399 |
'validation' | 1,988 |
पंजा_x_विकी/जा
विन्यास विवरण : ja . में अनुवादित
डेटासेट का आकार :
17.77 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |
पंजा_x_wiki/ko
कॉन्फ़िग विवरण : ko . में अनुवादित
डेटासेट का आकार :
16.42 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 1,999 |
'train' | 49,164 |
'validation' | 2,000 |
पंजे_x_wiki/zh
विन्यास विवरण : zh . में अनुवादित
डेटासेट का आकार :
13.20 MiB
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,000 |
'train' | 49,401 |
'validation' | 2,000 |