- توضیحات :
OPUS مجموعه ای از متون ترجمه شده از وب است.
پیکربندی خود را ایجاد کنید تا انتخاب کنید کدام جفت داده / زبان بارگیری شود.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : http://opus.nlpl.eu/
کد منبع :
tfds.datasets.opus.Builder
نسخه ها :
-
0.1.0
(پیش فرض): بدون یادداشت انتشار.
-
ساختار ویژگی :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
ترجمه | ||||
de | متن | رشته | ||
en | متن | رشته |
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('de', 'en')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/medical (پیکربندی پیش فرض)
توضیحات پیکربندی : اسناد پزشکی
حجم دانلود :
34.29 MiB
حجم مجموعه داده :
188.85 MiB
ذخیره خودکار ( مستندات ): فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 1,108,752 |
- مثالها ( tfds.as_dataframe ):
اثر/قانون
توضیحات پیکربندی : اسناد قانونی
حجم دانلود :
46.99 MiB
حجم مجموعه داده :
214.44 MiB
ذخیره خودکار ( مستندات ): فقط زمانی که
shuffle_files=False
(قطار)تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 719,372 |
- مثالها ( tfds.as_dataframe ):
opus/koran
توضیحات پیکربندی : اسناد قرآنی
حجم دانلود :
35.42 MiB
حجم مجموعه داده :
117.54 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 537,128 |
- مثالها ( tfds.as_dataframe ):
opus/IT
توضیحات پیکربندی : اسناد IT
حجم دانلود :
10.33 MiB
حجم مجموعه داده :
42.51 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 347,817 |
- مثالها ( tfds.as_dataframe ):
اپوس/زیرنویس
توضیحات پیکربندی : اسناد زیرنویس
حجم دانلود :
677.64 MiB
حجم مجموعه داده :
2.01 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :
شکاف | مثال ها |
---|---|
'train' | 22,512,639 |
- مثالها ( tfds.as_dataframe ):