- Deskripsi :
OPUS adalah kumpulan teks terjemahan dari web.
Buat konfigurasi Anda sendiri untuk memilih pasangan data / bahasa mana yang akan dimuat.
config = tfds.translate.opus.OpusConfig(
version=tfds.core.Version('0.1.0'),
language_pair=("de", "en"),
subsets=["GNOME", "EMEA"]
)
builder = tfds.builder("opus", config=config)
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : http://opus.nlpl.eu/
Kode sumber :
tfds.datasets.opus.Builder
Versi :
-
0.1.0
(default): Tidak ada catatan rilis.
-
Struktur fitur :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
Terjemahan | ||||
de | Teks | rangkaian | ||
en | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):('de', 'en')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{Tiedemann2012ParallelData,
author = {Tiedemann, J},
title = {Parallel Data, Tools and Interfaces in OPUS},
booktitle = {LREC}
year = {2012} }
opus/medis (konfigurasi default)
Deskripsi konfigurasi : dokumen medis
Ukuran unduhan :
34.29 MiB
Ukuran dataset :
188.85 MiB
Auto-cached ( dokumentasi ): Hanya ketika
shuffle_files=False
(train)Perpecahan :
Membelah | Contoh |
---|---|
'train' | 1.108.752 |
- Contoh ( tfds.as_dataframe ):
karya/hukum
Deskripsi konfigurasi : dokumen hukum
Ukuran unduhan :
46.99 MiB
Ukuran dataset :
214.44 MiB
Auto-cached ( dokumentasi ): Hanya ketika
shuffle_files=False
(train)Perpecahan :
Membelah | Contoh |
---|---|
'train' | 719.372 |
- Contoh ( tfds.as_dataframe ):
opus/koran
Deskripsi konfigurasi : dokumen koran
Ukuran unduhan :
35.42 MiB
Ukuran dataset :
117.54 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 537.128 |
- Contoh ( tfds.as_dataframe ):
opus/IT
Deskripsi konfigurasi : Dokumen IT
Ukuran unduhan :
10.33 MiB
Ukuran dataset :
42.51 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 347.817 |
- Contoh ( tfds.as_dataframe ):
opus/sub judul
Deskripsi konfigurasi : dokumen subtitle
Ukuran unduhan :
677.64 MiB
Ukuran dataset :
2.01 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 22.512.639 |
- Contoh ( tfds.as_dataframe ):