- Descrizione :
OPUS è una raccolta di testi tradotti dal web.
Crea la tua configurazione per scegliere quale coppia dati/lingua caricare.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : http://opus.nlpl.eu/
Codice sorgente :
tfds.datasets.opus.Builder
Versioni :
-
0.1.0
(impostazione predefinita): nessuna nota di rilascio.
-
Struttura delle caratteristiche :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
Traduzione | ||||
de | Testo | corda | ||
it | Testo | corda |
Chiavi supervisionate (Vedi
as_supervised
doc ):('de', 'en')
Figura ( tfds.show_examples ): non supportato.
Citazione :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/medical (configurazione predefinita)
Descrizione della configurazione : documenti medici
Dimensione del download :
34.29 MiB
Dimensione del set di dati:
188.85 MiB
Cache automatica ( documentazione ): solo quando
shuffle_files=False
(treno)Divisioni :
Diviso | Esempi |
---|---|
'train' | 1.108.752 |
- Esempi ( tfds.as_dataframe ):
opera/legge
Descrizione della configurazione : documenti di legge
Dimensioni del download :
46.99 MiB
Dimensione del set di dati:
214.44 MiB
Cache automatica ( documentazione ): solo quando
shuffle_files=False
(treno)Divisioni :
Diviso | Esempi |
---|---|
'train' | 719.372 |
- Esempi ( tfds.as_dataframe ):
opera/corano
Descrizione della configurazione : documenti coranici
Dimensione del download :
35.42 MiB
Dimensione del set di dati:
117.54 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 537,128 |
- Esempi ( tfds.as_dataframe ):
opera/IT
Descrizione della configurazione : documenti IT
Dimensione del download :
10.33 MiB
Dimensione del set di dati:
42.51 MiB
Auto-cache ( documentazione ): Sì
Divisioni :
Diviso | Esempi |
---|---|
'train' | 347.817 |
- Esempi ( tfds.as_dataframe ):
opera/sottotitoli
Descrizione della configurazione : documenti dei sottotitoli
Dimensione del download :
677.64 MiB
Dimensione del set di dati:
2.01 GiB
Cache automatica ( documentazione ): No
Divisioni :
Diviso | Esempi |
---|---|
'train' | 22.512.639 |
- Esempi ( tfds.as_dataframe ):