para_crawl

  • Mô tả :

Web-Scale Parallel Corpora cho các ngôn ngữ chính thức của Châu Âu.

@misc {paracrawl,
    title  = "ParaCrawl",
    year   = "2018",
    url    = "http://paracrawl.eu/download.html."
}

para_crawl/enbg (cấu hình mặc định)

  • Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang bg.

  • Kích thước tải xuống : 98.94 MiB

  • Kích thước tập dữ liệu : 362.46 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 1.039.885
  • Cấu trúc tính năng :
Translation({
    'bg': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
bg Chữ sợi dây
vi Chữ sợi dây

para_crawl/encs

  • Mô tả cấu hình : Tập dữ liệu dịch từ tiếng Anh sang cs.

  • Kích thước tải xuống : 187.31 MiB

  • Kích thước tập dữ liệu : 666.34 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 2.981.949
  • Cấu trúc tính năng :
Translation({
    'cs': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
cs Chữ sợi dây
vi Chữ sợi dây

para_crawl/enda

  • Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang da.

  • Kích thước tải xuống : 174.34 MiB

  • Kích thước tập dữ liệu : 619.77 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 2.414.895
  • Cấu trúc tính năng :
Translation({
    'da': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
da Chữ sợi dây
vi Chữ sợi dây

para_crawl/ende

  • Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang de.

  • Kích thước tải xuống : 1.22 GiB

  • Kích thước tập dữ liệu : 4.04 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 16.264.448
  • Cấu trúc tính năng :
Translation({
    'de': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
de Chữ sợi dây
vi Chữ sợi dây

para_crawl/enel

  • Mô tả cấu hình : Tập dữ liệu dịch từ tiếng Anh sang el.

  • Kích thước tải xuống : 184.59 MiB

  • Kích thước tập dữ liệu : 698.75 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 1.985.233
  • Cấu trúc tính năng :
Translation({
    'el': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
el Chữ sợi dây
vi Chữ sợi dây

para_crawl/enes

  • Mô tả cấu hình : Tập dữ liệu dịch từ tiếng Anh sang es.

  • Kích thước tải xuống : 1.82 GiB

  • Kích thước tập dữ liệu : 6.23 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 21.987.267
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'es': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
Chữ sợi dây

para_crawl/enet

  • Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang et.

  • Kích thước tải xuống : 66.91 MiB

  • Kích thước tập dữ liệu : 209.16 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'train' 853,422
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'et': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
vân vân Chữ sợi dây

para_crawl/enfi

  • Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang fi.

  • Kích thước tải xuống : 151.83 MiB

  • Kích thước tập dữ liệu : 543.85 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 2.156.069
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'fi': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
fi Chữ sợi dây

para_crawl/enfr

  • Mô tả cấu hình : Tập dữ liệu dịch từ tiếng Anh sang tiếng Anh.

  • Kích thước tải xuống : 2.63 GiB

  • Kích thước tập dữ liệu : 9.04 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 31.374.161
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'fr': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
bạn thân Chữ sợi dây

para_crawl/enga

  • Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang ga.

  • Kích thước tải xuống : 28.03 MiB

  • Kích thước tập dữ liệu : 107.09 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 357,399
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'ga': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
ga Chữ sợi dây

para_crawl/enhr

  • Mô tả cấu hình : Tập dữ liệu dịch từ tiếng Anh sang hr.

  • Kích thước tải xuống : 80.97 MiB

  • Kích thước tập dữ liệu : 256.37 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 1.002.053
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'hr': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
giờ Chữ sợi dây

para_crawl/enhu

  • Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang hu.

  • Kích thước tải xuống : 114.24 MiB

  • Kích thước tập dữ liệu : 421.40 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 1.901.342
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'hu': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
hu Chữ sợi dây

para_crawl/enit

  • Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang nó.

  • Kích thước tải xuống : 1017.30 MiB

  • Kích thước tập dữ liệu : 3.36 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 12.162.239
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'it': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
Chữ sợi dây

para_crawl/enlt

  • Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang lt.

  • Kích thước tải xuống : 63.28 MiB

  • Kích thước tập dữ liệu : 204.70 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'train' 844.643
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'lt': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
trung úy Chữ sợi dây

para_crawl/enlv

  • Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang lv.

  • Kích thước tải xuống : 45.17 MiB

  • Kích thước tập dữ liệu : 147.09 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'train' 553.060
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'lv': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
lv Chữ sợi dây

para_crawl/enmt

  • Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang mt.

  • Kích thước tải xuống : 18.15 MiB

  • Kích thước tập dữ liệu : 54.36 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 195,502
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'mt': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
tấn Chữ sợi dây

para_crawl/ennl

  • Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang nl.

  • Kích thước tải xuống : 400.63 MiB

  • Kích thước tập dữ liệu : 1.40 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 5.659.268
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'nl': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
nl Chữ sợi dây

para_crawl/enpl

  • Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang pl.

  • Kích thước tải xuống : 257.90 MiB

  • Kích thước tập dữ liệu : 885.63 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 3,503,276
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'pl': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
làm ơn Chữ sợi dây

para_crawl/enpt

  • Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang pt.

  • Kích thước tải xuống : 608.62 MiB

  • Kích thước tập dữ liệu : 2.05 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 8.141.940
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
điểm Chữ sợi dây

para_crawl/enro

  • Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang ro.

  • Kích thước tải xuống : 153.24 MiB

  • Kích thước tập dữ liệu : 534.34 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 1.952.043
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'ro': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
ro Chữ sợi dây

para_crawl/ensk

  • Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang sk.

  • Kích thước tải xuống : 96.61 MiB

  • Kích thước tập dữ liệu : 352.91 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 1.591.831
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'sk': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
sk Chữ sợi dây

para_crawl/ensl

  • Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang sl.

  • Kích thước tải xuống : 62.02 MiB

  • Kích thước tập dữ liệu : 187.66 MiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi shuffle_files=False (đào tạo)

  • Chia tách :

Tách ra ví dụ
'train' 660.161
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'sl': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
sl Chữ sợi dây

para_crawl/ensv

  • Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang sv.

  • Kích thước tải xuống : 262.76 MiB

  • Kích thước tập dữ liệu : 905.72 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 3,476,729
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'sv': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Dịch
vi Chữ sợi dây
sinh viên Chữ sợi dây