- Descrição :
Traduza o conjunto de dados com base nos dados de statmt.org.
Existem versões para os diferentes anos usando uma combinação de várias fontes de dados. A base wmt_translate
permite que você crie sua própria configuração para escolher seu próprio par de dados/idioma criando um tfds.translate.wmt.WmtConfig
personalizado.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Página inicial : http://www.statmt.org/wmt17/translation-task.html
Código -fonte:
tfds.translate.Wmt17Translate
Versões :
-
1.0.0
(padrão): sem notas de versão.
-
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em
download_config.manual_dir
(o padrão é~/tensorflow_datasets/downloads/manual/
):
Algumas das configurações do wmt aqui requerem um download manual. Por favor, olhe em wmt.py para ver o caminho exato (e nome do arquivo) que deve ser baixado.Figura ( tfds.show_examples ): Não suportado.
Citação :
@InProceedings{bojar-EtAl:2017:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huang, Shujian and Huck, Matthias and Koehn, Philipp and Liu, Qun and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Post, Matt and Rubino, Raphael and Specia, Lucia and Turchi, Marco},
title = {Findings of the 2017 Conference on Machine Translation (WMT17)},
booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
month = {September},
year = {2017},
address = {Copenhagen, Denmark},
publisher = {Association for Computational Linguistics},
pages = {169--214},
url = {http://www.aclweb.org/anthology/W17-4717}
}
wmt17_translate/cs-en (configuração padrão)
Descrição da configuração : conjunto de dados da tarefa de tradução WMT 2017 cs-en.
Tamanho do download :
1.66 GiB
Tamanho do conjunto de dados :
2.91 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 3.005 |
'train' | 15.851.649 |
'validation' | 2.999 |
- Estrutura de recursos :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
Tradução | ||||
cs | Texto | corda | ||
pt | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('cs', 'en')
Exemplos ( tfds.as_dataframe ):
wmt17_translate/de-en
Descrição da configuração : conjunto de dados de tarefa de tradução de-en WMT 2017.
Tamanho do download :
1.81 GiB
Tamanho do conjunto de dados :
1.73 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 3.004 |
'train' | 5.906.184 |
'validation' | 2.999 |
- Estrutura de recursos :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
Tradução | ||||
de | Texto | corda | ||
pt | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('de', 'en')
Exemplos ( tfds.as_dataframe ):
wmt17_translate/fi-en
Descrição da configuração : WMT 2017 conjunto de dados da tarefa de tradução fi-en.
Tamanho do download :
414.10 MiB
Tamanho do conjunto de dados :
769.87 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 6.004 |
'train' | 2.656.542 |
'validation' | 6.000 |
- Estrutura de recursos :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
Tradução | ||||
pt | Texto | corda | ||
fi | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('fi', 'en')
Exemplos ( tfds.as_dataframe ):
wmt17_translate/lv-en
Descrição da configuração : WMT 2017 conjunto de dados de tarefa de tradução lv-en.
Tamanho do download :
161.69 MiB
Tamanho do conjunto de dados :
562.26 MiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.001 |
'train' | 3.567.528 |
'validation' | 2.003 |
- Estrutura de recursos :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
Tradução | ||||
pt | Texto | corda | ||
lv | Texto | corda |
Chaves supervisionadas (Veja
as_supervised
doc ):('lv', 'en')
Exemplos ( tfds.as_dataframe ):
wmt17_translate/ru-en
Descrição da configuração : WMT 2017 conjunto de dados de tarefa de tradução ru-en.
Tamanho do download :
1.06 GiB
Tamanho do conjunto de dados :
11.18 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 3.001 |
'train' | 25.782.720 |
'validation' | 2.998 |
- Estrutura de recursos :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
Tradução | ||||
pt | Texto | corda | ||
ru | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('ru', 'en')
Exemplos ( tfds.as_dataframe ):
wmt17_translate/tr-en
Descrição da configuração : WMT 2017 tr-en conjunto de dados da tarefa de tradução.
Tamanho do download :
59.32 MiB
Tamanho do conjunto de dados :
63.74 MiB
Cache automático ( documentação ): Sim
Divisões :
Dividir | Exemplos |
---|---|
'test' | 3.007 |
'train' | 205.756 |
'validation' | 3.000 |
- Estrutura de recursos :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
Tradução | ||||
pt | Texto | corda | ||
tr | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('tr', 'en')
Exemplos ( tfds.as_dataframe ):
wmt17_translate/zh-en
Descrição da configuração : Conjunto de dados da tarefa de tradução WMT 2017 zh-en.
Tamanho do download :
884.32 MiB
Tamanho do conjunto de dados :
6.43 GiB
Armazenado em cache automaticamente ( documentação ): Não
Divisões :
Dividir | Exemplos |
---|---|
'test' | 2.001 |
'train' | 25.136.609 |
'validation' | 2.002 |
- Estrutura de recursos :
Translation({
'en': Text(shape=(), dtype=string),
'zh': Text(shape=(), dtype=string),
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
Tradução | ||||
pt | Texto | corda | ||
zh | Texto | corda |
Chaves supervisionadas (Consulte
as_supervised
doc ):('zh', 'en')
Exemplos ( tfds.as_dataframe ):