- Descrizione :
Traduci il set di dati in base ai dati di statmt.org.
Esistono versioni per i diversi anni che utilizzano una combinazione di più origini dati. La base wmt_translate
ti consente di creare la tua configurazione per scegliere la tua coppia dati/lingua creando un tfds.translate.wmt.WmtConfig
personalizzato.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Pagina iniziale : http://www.statmt.org/wmt14/translation-task.html
Codice sorgente :
tfds.translate.Wmt14Translate
Versioni :
-
1.0.0
(predefinito): nessuna nota di rilascio.
-
Dimensione del set di dati :
Unknown size
Istruzioni per il download manuale : questo set di dati richiede il download manuale dei dati di origine in
download_config.manual_dir
(il valore predefinito~/tensorflow_datasets/downloads/manual/
):
Alcune delle configurazioni wmt qui, richiedono un download manuale. Si prega di guardare in wmt.py per vedere il percorso esatto (e il nome del file) che deve essere scaricato.Memorizzazione automatica nella cache ( documentazione ): sconosciuto
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ): mancante.
Citazione :
@InProceedings{bojar-EtAl:2014:W14-33,
author = {Bojar, Ondrej and Buck, Christian and Federmann, Christian and Haddow, Barry and Koehn, Philipp and Leveling, Johannes and Monz, Christof and Pecina, Pavel and Post, Matt and Saint-Amand, Herve and Soricut, Radu and Specia, Lucia and Tamchyna, Ale
{s} },
title = {Findings of the 2014 Workshop on Statistical Machine Translation},
booktitle = {Proceedings of the Ninth Workshop on Statistical Machine Translation},
month = {June},
year = {2014},
address = {Baltimore, Maryland, USA},
publisher = {Association for Computational Linguistics},
pages = {12--58},
url = {http://www.aclweb.org/anthology/W/W14/W14-3302}
}
wmt14_translate/cs-en (configurazione predefinita)
Descrizione della configurazione : set di dati dell'attività di traduzione cs-en di WMT 2014.
Dimensione download :
1.58 GiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 3.003 |
'train' | 15.786.979 |
'validation' | 3.000 |
- Struttura delle caratteristiche :
Translation({
'cs': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
- Documentazione sulle caratteristiche :
Caratteristica | Classe | Forma | tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
cs | Testo | tf.string | ||
it | Testo | tf.string |
- Chiavi supervisionate (Vedi
as_supervised
doc ):('cs', 'en')
wmt14_translate/de-en
Descrizione della configurazione : set di dati dell'attività di traduzione de-en WMT 2014.
Dimensione download :
1.58 GiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 3.003 |
'train' | 4.508.785 |
'validation' | 3.000 |
- Struttura delle caratteristiche :
Translation({
'de': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
- Documentazione sulle caratteristiche :
Caratteristica | Classe | Forma | tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
de | Testo | tf.string | ||
it | Testo | tf.string |
- Chiavi supervisionate (Vedi
as_supervised
doc ):('de', 'en')
wmt14_translate/fr-en
Descrizione della configurazione : set di dati dell'attività di traduzione WMT 2014 fr-en.
Dimensione download :
6.20 GiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 3.003 |
'train' | 40.836.876 |
'validation' | 3.000 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=tf.string),
'fr': Text(shape=(), dtype=tf.string),
})
- Documentazione sulle caratteristiche :
Caratteristica | Classe | Forma | tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
it | Testo | tf.string | ||
fr | Testo | tf.string |
- Chiavi supervisionate (Vedi
as_supervised
doc ):('fr', 'en')
wmt14_translate/hi-en
Descrizione della configurazione : set di dati dell'attività di traduzione hi-en WMT 2014.
Dimensione download :
44.65 MiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 2.507 |
'train' | 313.748 |
'validation' | 520 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=tf.string),
'hi': Text(shape=(), dtype=tf.string),
})
- Documentazione sulle caratteristiche :
Caratteristica | Classe | Forma | tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
it | Testo | tf.string | ||
Ciao | Testo | tf.string |
- Chiavi supervisionate (Vedi
as_supervised
doc ):('hi', 'en')
wmt14_translate/ru-en
Descrizione della configurazione : set di dati dell'attività di traduzione ru-en WMT 2014.
Dimensione download :
998.38 MiB
Spaccature :
Diviso | Esempi |
---|---|
'test' | 3.003 |
'train' | 2.486.965 |
'validation' | 3.000 |
- Struttura delle caratteristiche :
Translation({
'en': Text(shape=(), dtype=tf.string),
'ru': Text(shape=(), dtype=tf.string),
})
- Documentazione sulle caratteristiche :
Caratteristica | Classe | Forma | tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
it | Testo | tf.string | ||
ru | Testo | tf.string |
- Chiavi supervisionate (Vedi
as_supervised
doc ):('ru', 'en')