- विवरण :
Statmt.org के डेटा के आधार पर डेटासेट का अनुवाद करें।
कई डेटा स्रोतों के संयोजन का उपयोग करके संस्करण विभिन्न वर्षों के लिए मौजूद हैं। आधार wmt_translate आपको कस्टम tfds.translate.wmt.WmtConfig बनाकर अपना स्वयं का डेटा/भाषा युग्म चुनने के लिए अपना स्वयं का कॉन्फ़िगरेशन बनाने की अनुमति देता है।
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
स्रोत कोड :
tfds.translate.Wmt17Translateसंस्करण :
-
1.0.0(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/) में डाउनलोड करना होगा:
यहाँ कुछ wmt कॉन्फिग के लिए मैन्युअल डाउनलोड की आवश्यकता होती है। डाउनलोड करने के लिए सटीक पथ (और फ़ाइल नाम) देखने के लिए कृपया wmt.py देखें।चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate/cs-en (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िगरेशन विवरण : WMT 2017 cs-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
1.66 GiBडेटासेट का आकार :
2.91 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 3,005 |
'train' | 15,851,649 |
'validation' | 2,999 |
- फ़ीचर संरचना :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| सीएस | मूलपाठ | डोरी | ||
| एन | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervisedदस्तावेज़ देखें):('cs', 'en')उदाहरण ( tfds.as_dataframe ):
wmt17_translate/de-en
कॉन्फ़िगरेशन विवरण : WMT 2017 डी-एन अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
1.81 GiBडेटासेट का आकार :
1.73 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 3,004 |
'train' | 5,906,184 |
'validation' | 2,999 |
- फ़ीचर संरचना :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| डे | मूलपाठ | डोरी | ||
| एन | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('de', 'en')उदाहरण ( tfds.as_dataframe ):
wmt17_translate/fi-hi
कॉन्फ़िगरेशन विवरण : WMT 2017 फाई-एन अनुवाद कार्य डेटासेट।
डाउनलोड का आकार :
414.10 MiBडेटासेट का आकार :
769.87 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 6,004 |
'train' | 2,656,542 |
'validation' | 6,000 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| एन | मूलपाठ | डोरी | ||
| फाई | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervisedदस्तावेज़ देखें):('fi', 'en')उदाहरण ( tfds.as_dataframe ):
wmt17_translate/lv-hi
कॉन्फ़िगरेशन विवरण : WMT 2017 lv-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
161.69 MiBडेटासेट का आकार :
562.26 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 2,001 |
'train' | 3,567,528 |
'validation' | 2,003 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| एन | मूलपाठ | डोरी | ||
| एल.वी | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('lv', 'en')उदाहरण ( tfds.as_dataframe ):
wmt17_translate/ru-hi
कॉन्फ़िगरेशन विवरण : WMT 2017 ru-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
1.06 GiBडेटासेट का आकार :
11.18 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 3,001 |
'train' | 25,782,720 |
'validation' | 2,998 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| एन | मूलपाठ | डोरी | ||
| आरयू | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('ru', 'en')उदाहरण ( tfds.as_dataframe ):
wmt17_translate/tr-hi
कॉन्फ़िगरेशन विवरण : WMT 2017 tr-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
59.32 MiBडेटासेट का आकार :
63.74 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 3,007 |
'train' | 205,756 |
'validation' | 3,000 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| एन | मूलपाठ | डोरी | ||
| टीआर | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervisedदस्तावेज़ देखें):('tr', 'en')उदाहरण ( tfds.as_dataframe ):
wmt17_translate/zh-en
कॉन्फ़िगरेशन विवरण : WMT 2017 zh-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
884.32 MiBडेटासेट का आकार :
6.43 GiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 2,001 |
'train' | 25,136,609 |
'validation' | 2,002 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| अनुवाद | ||||
| एन | मूलपाठ | डोरी | ||
| झ | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_superviseddoc देखें):('zh', 'en')उदाहरण ( tfds.as_dataframe ):