karya

  • Deskripsi :

OPUS adalah kumpulan teks terjemahan dari web.

Buat konfigurasi Anda sendiri untuk memilih pasangan data / bahasa mana yang akan dimuat.

config = tfds.translate.opus.OpusConfig(
    version=tfds.core.Version('0.1.0'),
    language_pair=("de", "en"),
    subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
de Teks rangkaian
en Teks rangkaian
@inproceedings{Tiedemann2012ParallelData,
  author = {Tiedemann, J},
  title = {Parallel Data, Tools and Interfaces in OPUS},
  booktitle = {LREC}
  year = {2012} }

opus/medis (konfigurasi default)

  • Deskripsi konfigurasi : dokumen medis

  • Ukuran unduhan : 34.29 MiB

  • Ukuran dataset : 188.85 MiB

  • Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'train' 1.108.752

karya/hukum

  • Deskripsi konfigurasi : dokumen hukum

  • Ukuran unduhan : 46.99 MiB

  • Ukuran dataset : 214.44 MiB

  • Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'train' 719.372

opus/koran

  • Deskripsi konfigurasi : dokumen koran

  • Ukuran unduhan : 35.42 MiB

  • Ukuran dataset : 117.54 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 537.128

opus/IT

  • Deskripsi konfigurasi : Dokumen IT

  • Ukuran unduhan : 10.33 MiB

  • Ukuran dataset : 42.51 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 347.817

opus/sub judul

  • Deskripsi konfigurasi : dokumen subtitle

  • Ukuran unduhan : 677.64 MiB

  • Ukuran dataset : 2.01 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 22.512.639