पंजा_x_विकी

  • विवरण :

इस डेटासेट में 23,659 मानव अनुवादित PAWS मूल्यांकन जोड़े और 296,406 मशीन अनुवादित प्रशिक्षण जोड़े छह विशिष्ट भाषाओं में हैं:

  • फ्रेंच
  • स्पैनिश
  • जर्मन
  • चीनी
  • जापानी
  • कोरियाई

अधिक जानकारी के लिए, संलग्न पेपर देखें: PAWS-X: पैराफ्रेज पहचान के लिए एक क्रॉस-लिंगुअल एडवरसैरियल डेटासेट https://arxiv.org/abs/1908.11828 पर

PAWS डेटासेट के समान, उदाहरण ट्रेन/देव/टेस्ट अनुभागों में विभाजित हैं। सभी फाइलें चार कॉलम के साथ tsv फॉर्मेट में हैं:

id प्रत्येक जोड़ी वाक्य के लिए एक अद्वितीय id1 पहला वाक्य वाक्य2 प्रत्येक जोड़ी के लिए दूसरा वाक्य (noisy_)लेबल (Noisy) लेबल

प्रत्येक लेबल में दो संभावित मान होते हैं: 0 इंगित करता है कि जोड़ी का अलग अर्थ है, जबकि 1 इंगित करता है कि जोड़ी एक पैराफ्रेज़ है।

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएंडिक्ट
लेबल क्लासलेबल tf.int64
वाक्य1 मूलपाठ tf.स्ट्रिंग
वाक्य 2 मूलपाठ tf.स्ट्रिंग
  • पर्यवेक्षित कुंजी ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उदाहरण ( tfds.as_dataframe ): मौजूद नहीं है।

  • उद्धरण :

@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • विन्यास विवरण : de . में अनुवादित

  • डेटासेट का आकार : 15.27 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki/hi

  • विन्यास विवरण : en . में अनुवादित

  • डेटासेट का आकार : 14.59 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki/es

  • कॉन्फ़िग विवरण : es . में अनुवादित

  • डेटासेट का आकार : 15.27 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,401
'validation' 1,961

पंजा_x_wiki/fr

  • कॉन्फिग विवरण : fr . में अनुवादित

  • डेटासेट का आकार : 15.79 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,399
'validation' 1,988

पंजा_x_विकी/जा

  • विन्यास विवरण : ja . में अनुवादित

  • डेटासेट का आकार : 17.77 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,401
'validation' 2,000

पंजा_x_wiki/ko

  • कॉन्फ़िग विवरण : ko . में अनुवादित

  • डेटासेट का आकार : 16.42 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,999
'train' 49,164
'validation' 2,000

पंजे_x_wiki/zh

  • विन्यास विवरण : zh . में अनुवादित

  • डेटासेट का आकार : 13.20 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 2,000
'train' 49,401
'validation' 2,000