wmt_t2t_translate

Descriptif :

Traduire l'ensemble de données en fonction des données de statmt.org.

Des versions existent pour les différentes années en utilisant une combinaison de plusieurs sources de données. La base wmt_translate vous permet de créer votre propre configuration pour choisir votre propre paire données/langue en créant un tfds.translate.wmt.WmtConfig personnalisé.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)

Description de la configuration : jeu de données de la tâche de traduction WMT T2T EnDe.
Page d' accueil : https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/data_generators/translate_ende.py
Code source : tfds.translate.WmtT2tTranslate
Versions :
- 1.0.0 (par défaut) : aucune note de version.
Taille du téléchargement : 1.61 GiB
Taille du jeu de données : 1.39 GiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
Certaines des configurations wmt ici nécessitent un téléchargement manuel. Veuillez regarder dans wmt.py pour voir le chemin exact (et le nom du fichier) qui doit être téléchargé.
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'test'`	3 003
`'train'`	4 592 289
`'validation'`	3 000

Structure des fonctionnalités :

Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Dtype
	Traduction
de	Texte	chaîne de caractères
fr	Texte	chaîne de caractères

Touches supervisées (Voir as_supervised doc ): ('de', 'en')
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):

Citation :

@InProceedings{bojar-EtAl:2014:W14-33,
  author    = {Bojar, Ondrej  and  Buck, Christian  and  Federmann, Christian  and  Haddow, Barry  and  Koehn, Philipp  and  Leveling, Johannes  and  Monz, Christof  and  Pecina, Pavel  and  Post, Matt  and  Saint-Amand, Herve  and  Soricut, Radu  and  Specia, Lucia  and  Tamchyna, Ale
{s} },
  title     = {Findings of the 2014 Workshop on Statistical Machine Translation},
  booktitle = {Proceedings of the Ninth Workshop on Statistical Machine Translation},
  month     = {June},
  year      = {2014},
  address   = {Baltimore, Maryland, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {12--58},
  url       = {http://www.aclweb.org/anthology/W/W14/W14-3302}
}

wmt_t2t_translate Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

wmt_t2t_translate/de-en (configuration par défaut)

wmt_t2t_translate