opus

  • Descrizione :

OPUS è una raccolta di testi tradotti dal web.

Crea la tua configurazione per scegliere quale coppia dati/lingua caricare.

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
Traduzione
de Testo corda
it Testo corda
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

opus/medical (configurazione predefinita)

  • Descrizione della configurazione : documenti medici

  • Dimensione del download : 34.29 MiB

  • Dimensione del set di dati: 188.85 MiB

  • Cache automatica ( documentazione ): solo quando shuffle_files=False (treno)

  • Divisioni :

Diviso Esempi
'train' 1.108.752

opera/legge

  • Descrizione della configurazione : documenti di legge

  • Dimensioni del download : 46.99 MiB

  • Dimensione del set di dati: 214.44 MiB

  • Cache automatica ( documentazione ): solo quando shuffle_files=False (treno)

  • Divisioni :

Diviso Esempi
'train' 719.372

opera/corano

  • Descrizione della configurazione : documenti coranici

  • Dimensione del download : 35.42 MiB

  • Dimensione del set di dati: 117.54 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 537,128

opera/IT

  • Descrizione della configurazione : documenti IT

  • Dimensione del download : 10.33 MiB

  • Dimensione del set di dati: 42.51 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'train' 347.817

opera/sottotitoli

  • Descrizione della configurazione : documenti dei sottotitoli

  • Dimensione del download : 677.64 MiB

  • Dimensione del set di dati: 2.01 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'train' 22.512.639