wmt17_translate

  • Descrizione :

Traduci il set di dati in base ai dati di statmt.org.

Esistono versioni per i diversi anni utilizzando una combinazione di più fonti di dati. La base wmt_translate ti consente di creare la tua configurazione per scegliere la tua coppia dati/lingua creando un tfds.translate.wmt.WmtConfig personalizzato.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)
  • Pagina iniziale : http://www.statmt.org/wmt17/translation-task.html

  • Codice sorgente : tfds.translate.Wmt17Translate

  • Versioni :

    • 1.0.0 (impostazione predefinita): nessuna nota di rilascio.
  • Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in download_config.manual_dir (il valore predefinito ~/tensorflow_datasets/downloads/manual/ ):
    Alcune delle configurazioni wmt qui richiedono un download manuale. Si prega di guardare in wmt.py per vedere il percorso esatto (e il nome del file) che deve essere scaricato.

  • Figura ( tfds.show_examples ): non supportato.

  • Citazione :

@InProceedings{bojar-EtAl:2017:WMT1,
  author    = {Bojar, Ond
{r}ej  and  Chatterjee, Rajen  and  Federmann, Christian  and  Graham, Yvette  and  Haddow, Barry  and  Huang, Shujian  and  Huck, Matthias  and  Koehn, Philipp  and  Liu, Qun  and  Logacheva, Varvara  and  Monz, Christof  and  Negri, Matteo  and  Post, Matt  and  Rubino, Raphael  and  Specia, Lucia  and  Turchi, Marco},
  title     = {Findings of the 2017 Conference on Machine Translation (WMT17)},
  booktitle = {Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers},
  month     = {September},
  year      = {2017},
  address   = {Copenhagen, Denmark},
  publisher = {Association for Computational Linguistics},
  pages     = {169--214},
  url       = {http://www.aclweb.org/anthology/W17-4717}
}

wmt17_translate/cs-en (configurazione predefinita)

  • Descrizione della configurazione : set di dati dell'attività di traduzione cs-en WMT 2017.

  • Dimensione del download : 1.66 GiB

  • Dimensione del set di dati: 2.91 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 3.005
'train' 15.851.649
'validation' 2.999
  • Struttura delle caratteristiche :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
cs Testo corda
it Testo corda

wmt17_translate/de-en

  • Descrizione della configurazione : set di dati dell'attività di traduzione de-en WMT 2017.

  • Dimensione del download : 1.81 GiB

  • Dimensione del set di dati: 1.73 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 3.004
'train' 5.906.184
'validation' 2.999
  • Struttura delle caratteristiche :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
de Testo corda
it Testo corda

wmt17_translate/fi-en

  • Descrizione della configurazione : set di dati dell'attività di traduzione fi-en WMT 2017.

  • Dimensione del download : 414.10 MiB

  • Dimensione del set di dati: 769.87 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 6.004
'train' 2.656.542
'validation' 6.000
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
fi Testo corda

wmt17_translate/lv-en

  • Descrizione della configurazione : set di dati dell'attività di traduzione lv-en WMT 2017.

  • Dimensione del download : 161.69 MiB

  • Dimensione del set di dati: 562.26 MiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 2.001
'train' 3.567.528
'validation' 2.003
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
liv Testo corda

wmt17_translate/ru-en

  • Descrizione della configurazione : set di dati dell'attività di traduzione ru-en WMT 2017.

  • Dimensione del download : 1.06 GiB

  • Dimensione del set di dati: 11.18 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 3.001
'train' 25.782.720
'validation' 2.998
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
ru Testo corda

wmt17_translate/tr-en

  • Descrizione della configurazione : set di dati dell'attività di traduzione tr-en WMT 2017.

  • Dimensione del download : 59.32 MiB

  • Dimensione del set di dati: 63.74 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 3.007
'train' 205.756
'validation' 3.000
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'tr': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
tr Testo corda

wmt17_translate/zh-en

  • Descrizione della configurazione : set di dati dell'attività di traduzione WMT 2017 zh-en.

  • Dimensione del download : 884.32 MiB

  • Dimensione del set di dati: 6.43 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'test' 2.001
'train' 25.136.609
'validation' 2.002
  • Struttura delle caratteristiche :
Translation({
    'en': Text(shape=(), dtype=string),
    'zh': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
it Testo corda
zh Testo corda