para_crawl

  • Deskripsi :

Corpora Paralel Skala Web untuk Bahasa Eropa Resmi.

@misc {paracrawl,
    title  = "ParaCrawl",
    year   = "2018",
    url    = "http://paracrawl.eu/download.html."
}

para_crawl/enbg (konfigurasi default)

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke bg.

  • Ukuran unduhan : 98.94 MiB

  • Ukuran dataset : 362.46 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 1.039.885
  • Struktur fitur :
Translation({
    'bg': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
bg Teks rangkaian
en Teks rangkaian

para_crawl/encs

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke cs.

  • Ukuran unduhan : 187.31 MiB

  • Ukuran dataset : 666.34 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 2.981.949
  • Struktur fitur :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
cs Teks rangkaian
en Teks rangkaian

para_crawl/akhir

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke da.

  • Ukuran unduhan : 174.34 MiB

  • Ukuran dataset : 619.77 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 2.414.895
  • Struktur fitur :
Translation({
    'da': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
da Teks rangkaian
en Teks rangkaian

para_crawl/ende

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke de.

  • Ukuran unduhan : 1.22 GiB

  • Ukuran dataset : 4.04 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 16.264.448
  • Struktur fitur :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
de Teks rangkaian
en Teks rangkaian

para_crawl/enel

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke el.

  • Ukuran unduhan : 184.59 MiB

  • Ukuran dataset : 698.75 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 1.985.233
  • Struktur fitur :
Translation({
    'el': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
el Teks rangkaian
en Teks rangkaian

para_crawl/enes

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke es.

  • Ukuran unduhan : 1.82 GiB

  • Ukuran dataset : 6.23 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 21.987.267
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'es': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
es Teks rangkaian

para_crawl/enet

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke et.

  • Ukuran unduhan : 66.91 MiB

  • Ukuran dataset : 209.16 MiB

  • Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'train' 853.422
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'et': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
et Teks rangkaian

para_crawl/enfi

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke fi.

  • Ukuran unduhan : 151.83 MiB

  • Ukuran dataset : 543.85 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 2.156.069
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
fi Teks rangkaian

para_crawl/enfr

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke fr.

  • Ukuran unduhan : 2.63 GiB

  • Ukuran dataset : 9.04 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 31.374.161
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
fr Teks rangkaian

para_crawl/enga

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke ga.

  • Ukuran unduhan : 28.03 MiB

  • Ukuran dataset : 107.09 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 357.399
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'ga': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
ga Teks rangkaian

para_crawl/enhr

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke hr.

  • Ukuran unduhan : 80.97 MiB

  • Ukuran dataset : 256.37 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 1.002.053
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'hr': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
jam Teks rangkaian

para_crawl/enhu

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke hu.

  • Ukuran unduhan : 114.24 MiB

  • Ukuran dataset : 421.40 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 1.901.342
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'hu': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
hu Teks rangkaian

para_crawl/enit

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke bahasa Inggris.

  • Ukuran unduhan : 1017.30 MiB

  • Ukuran dataset : 3.36 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 12.162.239
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'it': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
dia Teks rangkaian

para_crawl/enlt

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke lt.

  • Ukuran unduhan : 63.28 MiB

  • Ukuran dataset : 204.70 MiB

  • Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'train' 844.643
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'lt': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
lt Teks rangkaian

para_crawl/enlv

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke lv.

  • Ukuran unduhan : 45.17 MiB

  • Ukuran dataset : 147.09 MiB

  • Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'train' 553.060
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
lv Teks rangkaian

para_crawl/enmt

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke mt.

  • Ukuran unduhan : 18.15 MiB

  • Ukuran dataset : 54.36 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 195.502
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'mt': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
mt Teks rangkaian

para_crawl/ennl

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke nl.

  • Ukuran unduhan : 400.63 MiB

  • Ukuran dataset : 1.40 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 5.659.268
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'nl': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
nl Teks rangkaian

para_crawl/enpl

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke pl.

  • Ukuran unduhan : 257.90 MiB

  • Ukuran dataset : 885.63 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 3.503.276
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'pl': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
pl Teks rangkaian

para_crawl/enpt

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke pt.

  • Ukuran unduhan : 608.62 MiB

  • Ukuran dataset : 2.05 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 8.141.940
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
pt Teks rangkaian

para_crawl/enro

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke ro.

  • Ukuran unduhan : 153.24 MiB

  • Ukuran dataset : 534.34 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 1.952.043
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'ro': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
ro Teks rangkaian

para_crawl/ensk

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke sk.

  • Ukuran unduhan : 96.61 MiB

  • Ukuran dataset : 352.91 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 1.591.831
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'sk': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
sk Teks rangkaian

para_crawl/ensl

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke sl.

  • Ukuran unduhan : 62.02 MiB

  • Ukuran dataset : 187.66 MiB

  • Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (train)

  • Perpecahan :

Membelah Contoh
'train' 660.161
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'sl': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
sl Teks rangkaian

para_crawl/ensv

  • Deskripsi konfigurasi : Terjemahan dataset dari bahasa Inggris ke sv.

  • Ukuran unduhan : 262.76 MiB

  • Ukuran dataset : 905.72 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 3.476.729
  • Struktur fitur :
Translation({
    'en': Text(shape=(), dtype=string),
    'sv': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
Terjemahan
en Teks rangkaian
sv Teks rangkaian