- توضیحات :
مجموعه داده را بر اساس داده های statmt.org ترجمه کنید.
نسخه ها برای سال های مختلف با استفاده از ترکیبی از چندین منبع داده وجود دارد. wmt_translate
پایه به شما امکان می دهد با ایجاد یک tfds.translate.wmt.WmtConfig
سفارشی، پیکربندی خود را ایجاد کنید تا جفت داده/زبان خود را انتخاب کنید.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
صفحه اصلی : http://www.statmt.org/wmt17/translation-task.html
کد منبع :
tfds.translate.Wmt17Translate
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):
برخی از تنظیمات wmt در اینجا نیاز به دانلود دستی دارند. لطفاً برای دیدن مسیر دقیق (و نام فایل) که باید دانلود شود، به wmt.py نگاه کنید.شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate/cs-en (پیکربندی پیش فرض)
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2017 cs-en.
حجم دانلود :
1.66 GiB
حجم مجموعه داده :
2.91 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 3005 |
'train' | 15,851,649 |
'validation' | 2999 |
- ساختار ویژگی :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
cs | متن | رشته | ||
en | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('cs', 'en')
مثالها ( tfds.as_dataframe ):
wmt17_translate/de-en
شرح پیکربندی : مجموعه داده وظیفه ترجمه WMT 2017 de-en.
حجم دانلود :
1.81 GiB
حجم مجموعه داده :
1.73 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 3004 |
'train' | 5,906,184 |
'validation' | 2999 |
- ساختار ویژگی :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
de | متن | رشته | ||
en | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('de', 'en')
مثالها ( tfds.as_dataframe ):
wmt17_translate/fi-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2017 fi-en.
حجم دانلود :
414.10 MiB
حجم مجموعه داده :
769.87 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 6004 |
'train' | 2,656,542 |
'validation' | 6000 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
فی | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('fi', 'en')
مثالها ( tfds.as_dataframe ):
wmt17_translate/lv-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه lv-en WMT 2017.
حجم دانلود :
161.69 MiB
حجم مجموعه داده :
562.26 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2001 |
'train' | 3,567,528 |
'validation' | 2003 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
lv | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('lv', 'en')
مثالها ( tfds.as_dataframe ):
wmt17_translate/ru-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2017 ru-en.
حجم دانلود :
1.06 GiB
حجم مجموعه داده :
11.18 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 3001 |
'train' | 25,782,720 |
'validation' | 2998 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
ru | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('ru', 'en')
مثالها ( tfds.as_dataframe ):
wmt17_translate/tr-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2017 tr-en.
حجم دانلود :
59.32 MiB
حجم مجموعه داده :
63.74 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 3007 |
'train' | 205756 |
'validation' | 3000 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
tr | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('tr', 'en')
مثالها ( tfds.as_dataframe ):
wmt17_translate/zh-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2017 zh-en.
حجم دانلود :
884.32 MiB
حجم مجموعه داده :
6.43 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2001 |
'train' | 25,136,609 |
'validation' | 2002 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
zh | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('zh', 'en')
مثالها ( tfds.as_dataframe ):