- विवरण :
मौजूदा व्याख्यात्मक पहचान डेटासेट में ऐसे वाक्य जोड़े की कमी होती है जिनमें बिना व्याख्या के उच्च शाब्दिक ओवरलैप होता है। इस तरह के डेटा पर प्रशिक्षित मॉडल न्यूयॉर्क से फ्लोरिडा की उड़ानें और फ्लोरिडा से न्यूयॉर्क की उड़ानें जैसे जोड़ों को अलग करने में विफल रहते हैं। इस डेटासेट में 108,463 मानव-लेबल वाले और 656k शोर वाले लेबल वाले जोड़े शामिल हैं जो व्याख्यात्मक पहचान की समस्या के लिए मॉडलिंग संरचना, संदर्भ और शब्द क्रम जानकारी के महत्व को दर्शाते हैं।
अधिक जानकारी के लिए, संलग्न पेपर देखें: PAWS: https://arxiv.org/abs/1904.01130 पर वर्ड स्क्रैम्बलिंग से विरोधियों की व्याख्या
इस कॉर्पस में विकिपीडिया पृष्ठों से उत्पन्न जोड़े शामिल हैं, जिसमें ऐसे जोड़े शामिल हैं जो शब्द स्वैपिंग और बैक ट्रांसलेशन विधियों दोनों से उत्पन्न होते हैं। सभी जोड़ियों में व्याख्या और प्रवाह दोनों पर मानवीय निर्णय होते हैं और वे ट्रेन/देव/परीक्षण अनुभागों में विभाजित होते हैं।
सभी फाइलें चार स्तंभों के साथ टीएसवी प्रारूप में हैं:
-
id: प्रत्येक जोड़ी के लिए एक अद्वितीय आईडी। -
sentence11: पहला वाक्य। -
sentence22: दूसरा वाक्य। -
(noisy_)label: (शोर) प्रत्येक जोड़ी के लिए लेबल।
प्रत्येक लेबल के दो संभावित मान हैं: 0 इंगित करता है कि जोड़ी का अलग अर्थ है, जबकि 1 इंगित करता है कि जोड़ी एक व्याख्या है।
अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
स्रोत कोड :
tfds.datasets.paws_wiki.Builderसंस्करण :
-
1.0.0: प्रारंभिक संस्करण। -
1.1.0(डिफ़ॉल्ट): विभिन्न उपसमुच्चय में कॉन्फ़िगरेशन जोड़ता है और कच्चे पाठ का समर्थन करता है।
-
डाउनलोड आकार :
57.47 MiBफ़ीचर संरचना :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'sentence1': Text(shape=(), dtype=string),
'sentence2': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| लेबल | क्लासलेबल | int64 | ||
| वाक्य1 | मूलपाठ | डोरी | ||
| वाक्य2 | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):Noneचित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@InProceedings{paws2019naacl,
title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
booktitle = {Proc. of NAACL},
year = {2019}
}
paws_wiki/labeled_final_tokenized (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फिग विवरण : सबसेट: लेबल_फाइनल टोकनाइज्ड: ट्रू
डेटासेट का आकार :
17.96 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- उदाहरण ( tfds.as_dataframe ):
पंजे_विकी/लेबल_फाइनल_रॉ
कॉन्फ़िगरेशन विवरण : सबसेट: लेबल_फाइनल टोकनयुक्त: गलत
डेटासेट का आकार :
17.57 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 8,000 |
'train' | 49,401 |
'validation' | 8,000 |
- उदाहरण ( tfds.as_dataframe ):
paws_wiki/labeled_swap_tokenized
विन्यास विवरण : सबसेट: लेबल_स्वैप टोकनयुक्त: सच
डेटासेट का आकार :
8.79 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'train' | 30,397 |
- उदाहरण ( tfds.as_dataframe ):
paws_wiki/labeled_swap_raw
विन्यास विवरण : सबसेट: लेबल_स्वैप टोकनयुक्त: गलत
डेटासेट का आकार :
8.60 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'train' | 30,397 |
- उदाहरण ( tfds.as_dataframe ):
paws_wiki/unlabeled_final_tokenized
कॉन्फिग विवरण : सबसेट: अनलेबल_फाइनल टोकनाइज्ड: ट्रू
डेटासेट का आकार :
177.89 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (सत्यापन), केवल जब
shuffle_files=False(ट्रेन)विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'train' | 645,652 |
'validation' | 10,000 |
- उदाहरण ( tfds.as_dataframe ):