- Описание :
Перевести набор данных на основе данных с statmt.org.
Версии существуют за разные годы с использованием комбинации нескольких источников данных. База wmt_translate позволяет вам создать свою собственную конфигурацию, чтобы выбрать собственную пару данных/язык, создав собственный tfds.translate.wmt.WmtConfig .
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Домашняя страница : http://www.statmt.org/wmt19/translation-task.html
Исходный код :
tfds.translate.Wmt19TranslateВерсии :
-
1.0.0(по умолчанию): нет примечаний к выпуску.
-
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir(по умолчанию~/tensorflow_datasets/downloads/manual/):
Некоторые из приведенных здесь конфигураций wmt требуют загрузки вручную. Пожалуйста, загляните в wmt.py, чтобы увидеть точный путь (и имя файла), который необходимо загрузить.Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@ONLINE {wmt19translate,
author = "Wikimedia Foundation",
title = "ACL 2019 Fourth Conference on Machine Translation (WMT19), Shared Task: Machine Translation of News",
url = "http://www.statmt.org/wmt19/translation-task.html"
}
wmt19_translate/cs-en (конфигурация по умолчанию)
Описание конфигурации : набор данных задачи перевода WMT 2019 cs-en.
Размер загрузки :
1.88 GiBРазмер набора данных :
3.64 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 20 246 548 |
'validation' | 2983 |
- Структура функции :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| Перевод | ||||
| cs | Текст | нить | ||
| en | Текст | нить |
Контролируемые ключи (см . документ
as_supervised):('cs', 'en')Примеры ( tfds.as_dataframe ):
wmt19_translate/de-en
Описание конфигурации : набор данных задачи перевода WMT 2019 de-en.
Размер загрузки :
9.71 GiBРазмер набора данных :
8.60 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 38 690 334 |
'validation' | 2998 |
- Структура функции :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| Перевод | ||||
| де | Текст | нить | ||
| en | Текст | нить |
Контролируемые ключи (см . документ
as_supervised):('de', 'en')Примеры ( tfds.as_dataframe ):
wmt19_translate/fi-ru
Описание конфигурации : набор данных задачи перевода WMT 2019 fi-en.
Размер загрузки :
959.46 MiBРазмер набора данных :
1.46 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 6 587 448 |
'validation' | 3000 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| Перевод | ||||
| en | Текст | нить | ||
| фи | Текст | нить |
Контролируемые ключи (см . документ
as_supervised):('fi', 'en')Примеры ( tfds.as_dataframe ):
wmt19_translate/gu-en
Описание конфигурации : набор данных задачи перевода WMT 2019 gu-en.
Размер загрузки :
37.03 MiBРазмер набора данных :
1.55 MiB.Автоматическое кэширование ( документация ): Да
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 11 670 |
'validation' | 1998 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'gu': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| Перевод | ||||
| en | Текст | нить | ||
| гу | Текст | нить |
Контролируемые ключи (см . документ
as_supervised):('gu', 'en')Примеры ( tfds.as_dataframe ):
wmt19_translate/kk-ru
Описание конфигурации : набор данных задачи перевода WMT 2019 kk-en.
Размер загрузки :
39.58 MiBРазмер набора данных :
11.82 MiB.Автоматическое кэширование ( документация ): Да
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 126 583 |
'validation' | 2066 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'kk': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| Перевод | ||||
| en | Текст | нить | ||
| кк | Текст | нить |
Контролируемые ключи (см . документ
as_supervised):('kk', 'en')Примеры ( tfds.as_dataframe ):
wmt19_translate/lt-en
Описание конфигурации : набор данных задачи перевода WMT 2019 lt-en.
Размер загрузки :
392.20 MiBРазмер набора данных :
537.26 MiB.Автоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 2 344 893 |
'validation' | 2000 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'lt': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| Перевод | ||||
| en | Текст | нить | ||
| л | Текст | нить |
Контролируемые ключи (см . документ
as_supervised):('lt', 'en')Примеры ( tfds.as_dataframe ):
wmt19_translate/ru-en
Описание конфига: набор задач перевода WMT 2019 ru-en.
Размер загрузки :
1.57 GiBРазмер набора данных :
13.95 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 38 492 126 |
'validation' | 3000 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| Перевод | ||||
| en | Текст | нить | ||
| RU | Текст | нить |
Контролируемые ключи (см.
as_superviseddoc ):('ru', 'en')Примеры ( tfds.as_dataframe ):
wmt19_translate/zh-ru
Описание конфигурации : набор данных задачи перевода WMT 2019 zh-en.
Размер загрузки :
770.91 MiBРазмер набора данных :
6.49 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 25 986 436 |
'validation' | 3981 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| Перевод | ||||
| en | Текст | нить | ||
| ж | Текст | нить |
Контролируемые ключи (см.
as_superviseddoc ):('zh', 'en')Примеры ( tfds.as_dataframe ):
wmt19_translate/fr-de
Описание конфигурации : набор данных задачи перевода WMT 2019 fr-de.
Размер загрузки :
722.20 MiBРазмер набора данных :
2.39 GiBАвтоматическое кэширование ( документация ): Нет
Сплиты :
| Расколоть | Примеры |
|---|---|
'train' | 9 824 476 |
'validation' | 1512 |
- Структура функции :
Translation({
'de': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
})
- Документация по функциям :
| Особенность | Учебный класс | Форма | Dтип | Описание |
|---|---|---|---|---|
| Перевод | ||||
| де | Текст | нить | ||
| фр | Текст | нить |
Контролируемые ключи (см . документ
as_supervised):('fr', 'de')Примеры ( tfds.as_dataframe ):