wmt17_translate

  • Описание :

Перевести набор данных на основе данных с statmt.org.

Версии существуют за разные годы с использованием комбинации нескольких источников данных. База wmt_translate позволяет вам создать свою собственную конфигурацию, чтобы выбрать собственную пару данных/язык, создав собственный tfds.translate.wmt.WmtConfig .

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Домашняя страница : http://www.statmt.org/wmt17/translation-task.html

  • Исходный код : tfds.translate.Wmt17Translate

  • Версии :

    • 1.0.0 (по умолчанию): нет примечаний к выпуску.
  • Размер набора данных : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Некоторые из приведенных здесь конфигураций wmt требуют загрузки вручную. Пожалуйста, загляните в wmt.py, чтобы увидеть точный путь (и имя файла), который необходимо загрузить.

  • Автокэширование ( документация ): неизвестно

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Примеры ( tfds.as_dataframe ): отсутствует.

  • Цитата :

@InProceedings{bojar-EtAl:2017:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huang, Shujian  and  Huck, Matthias  and  Koehn, Philipp  and  Liu, Qun  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Rubino, Raphael  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2017 Conference on Machine Translation (WMT17)},
  booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
  month     = {September},
  year      = {2017},
  address   = {Copenhagen, Denmark},
  publisher = {Association for Computational Linguistics},
  pages     = {169--214},
  url       = {http://www.aclweb.org/anthology/W17-4717}
}

wmt17_translate/cs-en (конфигурация по умолчанию)

  • Описание конфигурации : набор данных задачи перевода WMT 2017 cs-en.

  • Размер загрузки : 1.66 GiB

  • Сплиты :

Расколоть Примеры
'test' 3005
'train' 15 851 649
'validation' 2999
  • Структура функции :
Translation({
    'cs': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
cs Текст tf.string
en Текст tf.string

wmt17_translate/de-en

  • Описание конфигурации : набор данных задачи перевода WMT 2017 de-en.

  • Размер загрузки : 1.81 GiB

  • Сплиты :

Расколоть Примеры
'test' 3004
'train' 5 906 184
'validation' 2999
  • Структура функции :
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
де Текст tf.string
en Текст tf.string

wmt17_translate/fi-ru

  • Описание конфигурации : набор данных задачи перевода WMT 2017 fi-en.

  • Размер загрузки : 414.10 MiB

  • Сплиты :

Расколоть Примеры
'test' 6004
'train' 2 656 542
'validation' 6000
  • Структура функции :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fi': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
en Текст tf.string
фи Текст tf.string

wmt17_translate/lv-ru

  • Описание конфигурации : набор данных задачи перевода WMT 2017 lv-en.

  • Размер загрузки : 161.69 MiB

  • Сплиты :

Расколоть Примеры
'test' 2001
'train' 3 567 528
'validation' 2003
  • Структура функции :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'lv': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
en Текст tf.string
lv Текст tf.string

wmt17_translate/ru-en

  • Описание конфига: набор задач перевода WMT 2017 ru-en.

  • Размер загрузки : 3.34 GiB

  • Сплиты :

Расколоть Примеры
'test' 3001
'train' 25 782 720
'validation' 2998
  • Структура функции :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ru': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
en Текст tf.string
RU Текст tf.string

wmt17_translate/tr-ru

  • Описание конфигурации : набор данных задачи перевода WMT 2017 tr-en.

  • Размер загрузки : 59.32 MiB

  • Сплиты :

Расколоть Примеры
'test' 3007
'train' 205 756
'validation' 3000
  • Структура функции :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'tr': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
en Текст tf.string
тр Текст tf.string

wmt17_translate/zh-ru

  • Описание конфигурации : набор данных задачи перевода WMT 2017 zh-en.

  • Размер загрузки : 2.16 GiB

  • Сплиты :

Расколоть Примеры
'test' 2001
'train' 25 136 609
'validation' 2002
  • Структура функции :
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'zh': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
Перевод
en Текст tf.string
ж Текст tf.string