- Descripción :
OPUS es una colección de textos traducidos de la web.
Cree su propia configuración para elegir qué par de datos/idiomas cargar.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Documentación adicional : Explore en Papers With Code
Página de inicio: http://opus.nlpl.eu/
Código fuente :
tfds.datasets.opus.Builder
Versiones :
-
0.1.0
(predeterminado): Sin notas de la versión.
-
Estructura de características :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
Traducción | ||||
Delaware | Texto | cuerda | ||
es | Texto | cuerda |
Teclas supervisadas (Ver
as_supervised
doc ):('de', 'en')
Figura ( tfds.show_examples ): no compatible.
Cita :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/medical (configuración predeterminada)
Descripción de la configuración : documentos médicos
Tamaño de la descarga :
34.29 MiB
Tamaño del conjunto de datos :
188.85 MiB
Auto-caché ( documentación ): Solo cuando
shuffle_files=False
(tren)Divisiones :
Separar | Ejemplos |
---|---|
'train' | 1,108,752 |
- Ejemplos ( tfds.as_dataframe ):
opus/ley
Descripción de la configuración : documentos legales
Tamaño de la descarga :
46.99 MiB
Tamaño del conjunto de datos :
214.44 MiB
Auto-caché ( documentación ): Solo cuando
shuffle_files=False
(tren)Divisiones :
Separar | Ejemplos |
---|---|
'train' | 719,372 |
- Ejemplos ( tfds.as_dataframe ):
opus/corán
Descripción de la configuración : documentos del Corán
Tamaño de la descarga :
35.42 MiB
Tamaño del conjunto de datos :
117.54 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 537,128 |
- Ejemplos ( tfds.as_dataframe ):
opus/IT
Descripción de la configuración : documentos de TI
Tamaño de descarga :
10.33 MiB
Tamaño del conjunto de datos :
42.51 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 347,817 |
- Ejemplos ( tfds.as_dataframe ):
obra/subtítulos
Descripción de la configuración : documentos de subtítulos
Tamaño de la descarga :
677.64 MiB
Tamaño del conjunto de datos :
2.01 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :
Separar | Ejemplos |
---|---|
'train' | 22,512,639 |
- Ejemplos ( tfds.as_dataframe ):