wmt17_translate

  • Descrição :

Traduza o conjunto de dados com base nos dados de statmt.org.

Existem versões para os diferentes anos usando uma combinação de várias fontes de dados. A base wmt_translate permite que você crie sua própria configuração para escolher seu próprio par de dados/idioma criando um tfds.translate.wmt.WmtConfig personalizado.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Página inicial : http://www.statmt.org/wmt17/translation-task.html

  • Código -fonte: tfds.translate.Wmt17Translate

  • Versões :

    • 1.0.0 (padrão): sem notas de versão.
  • Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Algumas das configurações do wmt aqui requerem um download manual. Por favor, olhe em wmt.py para ver o caminho exato (e nome do arquivo) que deve ser baixado.

  • Figura ( tfds.show_examples ): Não suportado.

  • Citação :

@InProceedings{bojar-EtAl:2017:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huang, Shujian  and  Huck, Matthias  and  Koehn, Philipp  and  Liu, Qun  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Rubino, Raphael  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2017 Conference on Machine Translation (WMT17)},
  booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
  month     = {September},
  year      = {2017},
  address   = {Copenhagen, Denmark},
  publisher = {Association for Computational Linguistics},
  pages     = {169--214},
  url       = {http://www.aclweb.org/anthology/W17-4717}
}

wmt17_translate/cs-en (configuração padrão)

  • Descrição da configuração : conjunto de dados da tarefa de tradução WMT 2017 cs-en.

  • Tamanho do download : 1.66 GiB

  • Tamanho do conjunto de dados : 2.91 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 3.005
'train' 15.851.649
'validation' 2.999
  • Estrutura de recursos :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
Tradução
cs Texto corda
pt Texto corda

wmt17_translate/de-en

  • Descrição da configuração : conjunto de dados de tarefa de tradução de-en WMT 2017.

  • Tamanho do download : 1.81 GiB

  • Tamanho do conjunto de dados : 1.73 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 3.004
'train' 5.906.184
'validation' 2.999
  • Estrutura de recursos :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
Tradução
de Texto corda
pt Texto corda

wmt17_translate/fi-en

  • Descrição da configuração : WMT 2017 conjunto de dados da tarefa de tradução fi-en.

  • Tamanho do download : 414.10 MiB

  • Tamanho do conjunto de dados : 769.87 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 6.004
'train' 2.656.542
'validation' 6.000
  • Estrutura de recursos :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
Tradução
pt Texto corda
fi Texto corda

wmt17_translate/lv-en

  • Descrição da configuração : WMT 2017 conjunto de dados de tarefa de tradução lv-en.

  • Tamanho do download : 161.69 MiB

  • Tamanho do conjunto de dados : 562.26 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 2.001
'train' 3.567.528
'validation' 2.003
  • Estrutura de recursos :
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
Tradução
pt Texto corda
lv Texto corda

wmt17_translate/ru-en

  • Descrição da configuração : WMT 2017 conjunto de dados de tarefa de tradução ru-en.

  • Tamanho do download : 1.06 GiB

  • Tamanho do conjunto de dados : 11.18 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 3.001
'train' 25.782.720
'validation' 2.998
  • Estrutura de recursos :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
Tradução
pt Texto corda
ru Texto corda

wmt17_translate/tr-en

  • Descrição da configuração : WMT 2017 tr-en conjunto de dados da tarefa de tradução.

  • Tamanho do download : 59.32 MiB

  • Tamanho do conjunto de dados : 63.74 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'test' 3.007
'train' 205.756
'validation' 3.000
  • Estrutura de recursos :
Translation({
    'en': Text(shape=(), dtype=string),
    'tr': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
Tradução
pt Texto corda
tr Texto corda

wmt17_translate/zh-en

  • Descrição da configuração : Conjunto de dados da tarefa de tradução WMT 2017 zh-en.

  • Tamanho do download : 884.32 MiB

  • Tamanho do conjunto de dados : 6.43 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'test' 2.001
'train' 25.136.609
'validation' 2.002
  • Estrutura de recursos :
Translation({
    'en': Text(shape=(), dtype=string),
    'zh': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
Tradução
pt Texto corda
zh Texto corda