Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

wmt_t2t_traducir

Descripción :

Traduzca el conjunto de datos según los datos de statmt.org.

Existen versiones para los diferentes años utilizando una combinación de múltiples fuentes de datos. La base wmt_translate le permite crear su propia configuración para elegir su propio par de datos/idioma creando un tfds.translate.wmt.WmtConfig personalizado.

config = tfds.translate.wmt.WmtConfig(
    version="0.0.1",
    language_pair=("fr", "de"),
    subsets={
        tfds.Split.TRAIN: ["commoncrawl_frde"],
        tfds.Split.VALIDATION: ["euelections_dev2019"],
    },
)
builder = tfds.builder("wmt_translate", config=config)

Descripción de la configuración : conjunto de datos de la tarea de traducción WMT T2T EnDe.
Página de inicio: https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/data_generators/translate_ende.py
Código fuente : tfds.translate.WmtT2tTranslate
Versiones :
- 1.0.0 (predeterminado): Sin notas de la versión.
Tamaño de descarga : 1.61 GiB
Tamaño del conjunto de datos : 1.39 GiB
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
Algunas de las configuraciones de wmt aquí requieren una descarga manual. Mire en wmt.py para ver la ruta exacta (y el nombre del archivo) que debe descargarse.
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'test'`	3,003
`'train'`	4,592,289
`'validation'`	3,000

Estructura de características :

Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	Traducción
Delaware	Texto	cuerda
es	Texto	cuerda

Teclas supervisadas (Ver as_supervised doc ): ('de', 'en')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@InProceedings{bojar-EtAl:2014:W14-33,
  author    = {Bojar, Ondrej  and  Buck, Christian  and  Federmann, Christian  and  Haddow, Barry  and  Koehn, Philipp  and  Leveling, Johannes  and  Monz, Christof  and  Pecina, Pavel  and  Post, Matt  and  Saint-Amand, Herve  and  Soricut, Radu  and  Specia, Lucia  and  Tamchyna, Ale
{s} },
  title     = {Findings of the 2014 Workshop on Statistical Machine Translation},
  booktitle = {Proceedings of the Ninth Workshop on Statistical Machine Translation},
  month     = {June},
  year      = {2014},
  address   = {Baltimore, Maryland, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {12--58},
  url       = {http://www.aclweb.org/anthology/W/W14/W14-3302}
}

wmt_t2t_traducir Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

wmt_t2t_translate/de-en (configuración predeterminada)

wmt_t2t_traducir