- توضیحات :
مجموعه داده را بر اساس داده های statmt.org ترجمه کنید.
نسخه ها برای سال های مختلف با استفاده از ترکیبی از چندین منبع داده وجود دارد. wmt_translate
پایه به شما امکان می دهد با ایجاد یک tfds.translate.wmt.WmtConfig
سفارشی، پیکربندی خود را ایجاد کنید تا جفت داده/زبان خود را انتخاب کنید.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : http://www.statmt.org/wmt15/translation-task.html
کد منبع :
tfds.translate.Wmt15Translate
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
دستورالعملهای دانلود دستی : این مجموعه داده از شما میخواهد که دادههای منبع را به صورت دستی در
download_config.manual_dir
(پیشفرض~/tensorflow_datasets/downloads/manual/
):
برخی از تنظیمات wmt در اینجا نیاز به دانلود دستی دارند. لطفاً برای دیدن مسیر دقیق (و نام فایل) که باید دانلود شود، به wmt.py نگاه کنید.ذخیره خودکار ( اسناد ): خیر
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@InProceedings{bojar-EtAl:2015:WMT,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Haddow, Barry and Huck, Matthias and Hokamp, Chris and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Scarton, Carolina and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2015 Workshop on Statistical Machine Translation},
booktitle = {Proceedings of the Tenth Workshop on Statistical Machine Translation},
month = {September},
year = {2015},
address = {Lisbon, Portugal},
publisher = {Association for Computational Linguistics},
pages = {1--46},
url = {http://aclweb.org/anthology/W15-3001}
}
wmt15_translate/cs-en (پیکربندی پیش فرض)
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2015 cs-en.
حجم دانلود :
1.62 GiB
حجم مجموعه داده :
2.89 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2656 |
'train' | 15,793,126 |
'validation' | 3003 |
- ساختار ویژگی :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
cs | متن | رشته | ||
en | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('cs', 'en')
مثالها ( tfds.as_dataframe ):
wmt15_translate/de-en
توضیحات پیکربندی : مجموعه داده وظیفه ترجمه WMT 2015 de-en.
حجم دانلود :
1.62 GiB
حجم مجموعه داده :
1.37 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2,169 |
'train' | 4,522,998 |
'validation' | 3003 |
- ساختار ویژگی :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
de | متن | رشته | ||
en | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('de', 'en')
مثالها ( tfds.as_dataframe ):
wmt15_translate/fi-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2015 fi-en.
حجم دانلود :
260.51 MiB
حجم مجموعه داده :
623.22 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1,370 |
'train' | 2,073,394 |
'validation' | 1500 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
فی | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('fi', 'en')
مثالها ( tfds.as_dataframe ):
wmt15_translate/fr-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه fr-en WMT 2015.
حجم دانلود :
6.24 GiB
حجم مجموعه داده :
14.65 GiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 1500 |
'train' | 40,853,298 |
'validation' | 4,503 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
fr | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('fr', 'en')
مثالها ( tfds.as_dataframe ):
wmt15_translate/ru-en
توضیحات پیکربندی : مجموعه داده وظایف ترجمه WMT 2015 ru-en.
حجم دانلود :
1.02 GiB
حجم مجموعه داده :
843.90 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 2,818 |
'train' | 2,495,081 |
'validation' | 3003 |
- ساختار ویژگی :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
en | متن | رشته | ||
ru | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('ru', 'en')
مثالها ( tfds.as_dataframe ):