- विवरण :
Statmt.org के डेटा के आधार पर डेटासेट का अनुवाद करें।
कई डेटा स्रोतों के संयोजन का उपयोग करके संस्करण विभिन्न वर्षों के लिए मौजूद हैं। आधार wmt_translate
आपको कस्टम tfds.translate.wmt.WmtConfig
बनाकर अपना स्वयं का डेटा/भाषा युग्म चुनने के लिए अपना स्वयं का कॉन्फ़िगरेशन बनाने की अनुमति देता है।
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
स्रोत कोड :
tfds.translate.Wmt17Translate
संस्करण :
-
1.0.0
(डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
-
मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से
download_config.manual_dir
(डिफ़ॉल्ट रूप से~/tensorflow_datasets/downloads/manual/
) में डाउनलोड करना होगा:
यहाँ कुछ wmt कॉन्फिग के लिए मैन्युअल डाउनलोड की आवश्यकता होती है। डाउनलोड करने के लिए सटीक पथ (और फ़ाइल नाम) देखने के लिए कृपया wmt.py देखें।चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate/cs-en (डिफ़ॉल्ट कॉन्फ़िगरेशन)
कॉन्फ़िगरेशन विवरण : WMT 2017 cs-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
1.66 GiB
डेटासेट का आकार :
2.91 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 3,005 |
'train' | 15,851,649 |
'validation' | 2,999 |
- फ़ीचर संरचना :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
अनुवाद | ||||
सीएस | मूलपाठ | डोरी | ||
एन | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
दस्तावेज़ देखें):('cs', 'en')
उदाहरण ( tfds.as_dataframe ):
wmt17_translate/de-en
कॉन्फ़िगरेशन विवरण : WMT 2017 डी-एन अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
1.81 GiB
डेटासेट का आकार :
1.73 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 3,004 |
'train' | 5,906,184 |
'validation' | 2,999 |
- फ़ीचर संरचना :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
अनुवाद | ||||
डे | मूलपाठ | डोरी | ||
एन | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('de', 'en')
उदाहरण ( tfds.as_dataframe ):
wmt17_translate/fi-hi
कॉन्फ़िगरेशन विवरण : WMT 2017 फाई-एन अनुवाद कार्य डेटासेट।
डाउनलोड का आकार :
414.10 MiB
डेटासेट का आकार :
769.87 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 6,004 |
'train' | 2,656,542 |
'validation' | 6,000 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
अनुवाद | ||||
एन | मूलपाठ | डोरी | ||
फाई | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
दस्तावेज़ देखें):('fi', 'en')
उदाहरण ( tfds.as_dataframe ):
wmt17_translate/lv-hi
कॉन्फ़िगरेशन विवरण : WMT 2017 lv-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
161.69 MiB
डेटासेट का आकार :
562.26 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,001 |
'train' | 3,567,528 |
'validation' | 2,003 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
अनुवाद | ||||
एन | मूलपाठ | डोरी | ||
एल.वी | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('lv', 'en')
उदाहरण ( tfds.as_dataframe ):
wmt17_translate/ru-hi
कॉन्फ़िगरेशन विवरण : WMT 2017 ru-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
1.06 GiB
डेटासेट का आकार :
11.18 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 3,001 |
'train' | 25,782,720 |
'validation' | 2,998 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
अनुवाद | ||||
एन | मूलपाठ | डोरी | ||
आरयू | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('ru', 'en')
उदाहरण ( tfds.as_dataframe ):
wmt17_translate/tr-hi
कॉन्फ़िगरेशन विवरण : WMT 2017 tr-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
59.32 MiB
डेटासेट का आकार :
63.74 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 3,007 |
'train' | 205,756 |
'validation' | 3,000 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
अनुवाद | ||||
एन | मूलपाठ | डोरी | ||
टीआर | मूलपाठ | डोरी |
पर्यवेक्षित कुंजी (
as_supervised
दस्तावेज़ देखें):('tr', 'en')
उदाहरण ( tfds.as_dataframe ):
wmt17_translate/zh-en
कॉन्फ़िगरेशन विवरण : WMT 2017 zh-en अनुवाद कार्य डेटासेट।
डाउनलोड आकार :
884.32 MiB
डेटासेट का आकार :
6.43 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :
विभाजित करना | उदाहरण |
---|---|
'test' | 2,001 |
'train' | 25,136,609 |
'validation' | 2,002 |
- फ़ीचर संरचना :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- फ़ीचर दस्तावेज़ीकरण :
विशेषता | कक्षा | आकार | डीटाइप | विवरण |
---|---|---|---|---|
अनुवाद | ||||
एन | मूलपाठ | डोरी | ||
झ | मूलपाठ | डोरी |
पर्यवेक्षित कुंजियाँ (
as_supervised
doc देखें):('zh', 'en')
उदाहरण ( tfds.as_dataframe ):