- Описание :
Перевести набор данных на основе данных с statmt.org.
Версии существуют за разные годы с использованием комбинации нескольких источников данных. База wmt_translate
позволяет вам создать свою собственную конфигурацию, чтобы выбрать собственную пару данных/язык, создав собственный tfds.translate.wmt.WmtConfig
.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Домашняя страница : http://www.statmt.org/wmt19/translation-task.html
Исходный код :
tfds.translate.Wmt19Translate
Версии :
-
1.0.0
(по умолчанию): нет примечаний к выпуску.
-
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Некоторые из приведенных здесь конфигураций wmt требуют загрузки вручную. Пожалуйста, загляните в wmt.py, чтобы увидеть точный путь (и имя файла), который необходимо загрузить.Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@ONLINE {wmt19translate,
author = "Wikimedia Foundation",
title = "ACL 2019 Fourth Conference on Machine Translation (WMT19), Shared Task: Machine Translation of News",
url = "http://www.statmt.org/wmt19/translation-task.html"
}
wmt19_translate/cs-en (конфигурация по умолчанию)
Описание конфигурации : набор данных задачи перевода WMT 2019 cs-en.
Размер загрузки :
1.88 GiB
Размер набора данных :
3.64 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 20 246 548 |
'validation' | 2983 |
- Структура функции :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
cs | Текст | нить | ||
en | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('cs', 'en')
Примеры ( tfds.as_dataframe ):
wmt19_translate/de-en
Описание конфигурации : набор данных задачи перевода WMT 2019 de-en.
Размер загрузки :
9.71 GiB
Размер набора данных :
8.60 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 38 690 334 |
'validation' | 2998 |
- Структура функции :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
де | Текст | нить | ||
en | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('de', 'en')
Примеры ( tfds.as_dataframe ):
wmt19_translate/fi-ru
Описание конфигурации : набор данных задачи перевода WMT 2019 fi-en.
Размер загрузки :
959.46 MiB
Размер набора данных :
1.46 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 6 587 448 |
'validation' | 3000 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
фи | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('fi', 'en')
Примеры ( tfds.as_dataframe ):
wmt19_translate/gu-en
Описание конфигурации : набор данных задачи перевода WMT 2019 gu-en.
Размер загрузки :
37.03 MiB
Размер набора данных :
1.55 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 11 670 |
'validation' | 1998 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'gu': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
гу | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('gu', 'en')
Примеры ( tfds.as_dataframe ):
wmt19_translate/kk-ru
Описание конфигурации : набор данных задачи перевода WMT 2019 kk-en.
Размер загрузки :
39.58 MiB
Размер набора данных :
11.82 MiB
.Автоматическое кэширование ( документация ): Да
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 126 583 |
'validation' | 2066 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'kk': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
кк | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('kk', 'en')
Примеры ( tfds.as_dataframe ):
wmt19_translate/lt-en
Описание конфигурации : набор данных задачи перевода WMT 2019 lt-en.
Размер загрузки :
392.20 MiB
Размер набора данных :
537.26 MiB
.Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 2 344 893 |
'validation' | 2000 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'lt': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
л | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('lt', 'en')
Примеры ( tfds.as_dataframe ):
wmt19_translate/ru-en
Описание конфига: набор задач перевода WMT 2019 ru-en.
Размер загрузки :
1.57 GiB
Размер набора данных :
13.95 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 38 492 126 |
'validation' | 3000 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
RU | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('ru', 'en')
Примеры ( tfds.as_dataframe ):
wmt19_translate/zh-ru
Описание конфигурации : набор данных задачи перевода WMT 2019 zh-en.
Размер загрузки :
770.91 MiB
Размер набора данных :
6.49 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 25 986 436 |
'validation' | 3981 |
- Структура функции :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
en | Текст | нить | ||
ж | Текст | нить |
Контролируемые ключи (см.
as_supervised
doc ):('zh', 'en')
Примеры ( tfds.as_dataframe ):
wmt19_translate/fr-de
Описание конфигурации : набор данных задачи перевода WMT 2019 fr-de.
Размер загрузки :
722.20 MiB
Размер набора данных :
2.39 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 9 824 476 |
'validation' | 1512 |
- Структура функции :
Translation({
'de': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
})
- Документация по функциям :
Особенность | Учебный класс | Форма | Dтип | Описание |
---|---|---|---|---|
Перевод | ||||
де | Текст | нить | ||
фр | Текст | нить |
Контролируемые ключи (см . документ
as_supervised
):('fr', 'de')
Примеры ( tfds.as_dataframe ):