wmt16_translate

  • Описание :

Перевести набор данных на основе данных с statmt.org.

Версии существуют за разные годы с использованием комбинации нескольких источников данных. База wmt_translate позволяет вам создать свою собственную конфигурацию, чтобы выбрать собственную пару данных/язык, создав собственный tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Дополнительная документация : изучить документы с кодом

  • Домашняя страница : http://www.statmt.org/wmt16/translation-task.html

  • Исходный код : tfds.translate.Wmt16Translate

  • Версии :

    • 1.0.0 (по умолчанию): нет примечаний к выпуску.
  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Некоторые из приведенных здесь конфигураций wmt требуют загрузки вручную. Пожалуйста, загляните в wmt.py, чтобы увидеть точный путь (и имя файла), который необходимо загрузить.

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@InProceedings{bojar-EtAl:2016:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huck, Matthias  and  Jimeno Yepes, Antonio  and  Koehn, Philipp  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Neveol, Aurelie  and  Neves, Mariana  and  Popel, Martin  and  Post, Matt  and  Rubino, Raphael  and  Scarton, Carolina  and  Specia, Lucia  and  Turchi, Marco  and  Verspoor, Karin  and  Zampieri, Marcos},
  title     = {Findings of the 2016 Conference on Machine Translation},
  booktitle = {Proceedings of the First Conference on Machine Translation},
  month     = {August},
  year      = {2016},
  address   = {Berlin, Germany},
  publisher = {Association for Computational Linguistics},
  pages     = {131--198},
  url       = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}

wmt16_translate/cs-en (конфигурация по умолчанию)

  • Описание конфигурации : набор данных задачи перевода WMT 2016 cs-en.

  • Размер загрузки : 1.57 GiB

  • Размер набора данных : 7.56 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 2999
'train' 52 335 651
'validation' 2656
  • Структура функции :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
cs Текст нить
en Текст нить

wmt16_translate/de-en

  • Описание конфигурации : набор данных задачи перевода WMT 2016 de-en.

  • Размер загрузки : 1.57 GiB

  • Размер набора данных : 1.38 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 2999
'train' 4 548 885
'validation' 2169
  • Структура функции :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
де Текст нить
en Текст нить

wmt16_translate/fi-ru

  • Описание конфигурации : набор данных задачи перевода WMT 2016 fi-en.

  • Размер загрузки : 260.51 MiB

  • Размер набора данных : 624.31 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 6000
'train' 2 073 394
'validation' 1370
  • Структура функции :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
en Текст нить
фи Текст нить

wmt16_translate/ro-en

  • Описание конфигурации : набор данных задачи перевода WMT 2016 ro-en.

  • Размер загрузки : 273.83 MiB

  • Размер набора данных : 194.35 MiB .

  • Автоматическое кэширование ( документация ): да (тест, проверка), только если shuffle_files=False (поезд)

  • Сплиты :

Расколоть Примеры
'test' 1999
'train' 610 320
'validation' 1999
  • Структура функции :
Translation({
    'en': Text(shape=(), dtype=string),
    'ro': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
en Текст нить
Ро Текст нить

wmt16_translate/ru-en

  • Описание конфига: набор задач перевода WMT 2016 ru-en.

  • Размер загрузки : 993.38 MiB

  • Размер набора данных : 854.44 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 2998
'train' 2 516 162
'validation' 2818
  • Структура функции :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
en Текст нить
RU Текст нить

wmt16_translate/tr-ru

  • Описание конфигурации : набор данных задачи перевода WMT 2016 tr-en.

  • Размер загрузки : 59.32 MiB

  • Размер набора данных : 63.21 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 3000
'train' 205 756
'validation' 1001
  • Структура функции :
Translation({
    'en': Text(shape=(), dtype=string),
    'tr': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
en Текст нить
тр Текст нить