para_crawl

 • Mô tả:

Corpora song song quy mô web cho các ngôn ngữ chính thức của Châu Âu.

@misc {paracrawl,
  title = "ParaCrawl",
  year  = "2018",
  url  = "http://paracrawl.eu/download.html."
}

para_crawl / enbg (cấu hình mặc định)

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang bg.

 • Dung lượng tải về: 98.94 MiB

 • Dataset kích thước: 362.46 MiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 1,039,885
 • Các tính năng:
Translation({
  'bg': Text(shape=(), dtype=tf.string),
  'en': Text(shape=(), dtype=tf.string),
})

para_crawl / encs

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang cs.

 • Dung lượng tải về: 187.31 MiB

 • Dataset kích thước: 666.34 MiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 2.981.949
 • Các tính năng:
Translation({
  'cs': Text(shape=(), dtype=tf.string),
  'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enda

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang da.

 • Dung lượng tải về: 174.34 MiB

 • Dataset kích thước: 619.77 MiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 2.414.895
 • Các tính năng:
Translation({
  'da': Text(shape=(), dtype=tf.string),
  'en': Text(shape=(), dtype=tf.string),
})

para_crawl / ende

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang de.

 • Dung lượng tải về: 1.22 GiB

 • Kích thước tập dữ liệu: 4.04 GiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 16.264.448
 • Các tính năng:
Translation({
  'de': Text(shape=(), dtype=tf.string),
  'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enel

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang el.

 • Dung lượng tải về: 184.59 MiB

 • Dataset kích thước: 698.75 MiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 1.985.233
 • Các tính năng:
Translation({
  'el': Text(shape=(), dtype=tf.string),
  'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enes

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang es.

 • Dung lượng tải về: 1.82 GiB

 • Kích thước tập dữ liệu: 6.23 GiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 21.987.267
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'es': Text(shape=(), dtype=tf.string),
})

para_crawl / enet

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang et.

 • Dung lượng tải về: 66.91 MiB

 • Dataset kích thước: 209.16 MiB

 • Tự động lưu trữ ( tài liệu ): Chỉ khi shuffle_files=False (tàu)

 • tách:

Tách ra Các ví dụ
'train' 853.422
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'et': Text(shape=(), dtype=tf.string),
})

para_crawl / enfi

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang fi.

 • Dung lượng tải về: 151.83 MiB

 • Dataset kích thước: 543.85 MiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 2.156.069
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'fi': Text(shape=(), dtype=tf.string),
})

para_crawl / enfr

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang fr.

 • Dung lượng tải về: 2.63 GiB

 • Kích thước tập dữ liệu: 9.04 GiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 31.374.161
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'fr': Text(shape=(), dtype=tf.string),
})

para_crawl / enga

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang ga.

 • Dung lượng tải về: 28.03 MiB

 • Dataset kích thước: 107.09 MiB

 • Tự động lưu trữ ( tài liệu ): Có

 • tách:

Tách ra Các ví dụ
'train' 357.399
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'ga': Text(shape=(), dtype=tf.string),
})

para_crawl / enhr

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang hr.

 • Dung lượng tải về: 80.97 MiB

 • Dataset kích thước: 256.37 MiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 1.002.053
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'hr': Text(shape=(), dtype=tf.string),
})

para_crawl / enhu

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang hu.

 • Dung lượng tải về: 114.24 MiB

 • Dataset kích thước: 421.40 MiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 1.901.342
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'hu': Text(shape=(), dtype=tf.string),
})

para_crawl / enit

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang nó.

 • Dung lượng tải về: 1017.30 MiB

 • Kích thước tập dữ liệu: 3.36 GiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 12.162.239
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'it': Text(shape=(), dtype=tf.string),
})

para_crawl / enlt

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang LT.

 • Dung lượng tải về: 63.28 MiB

 • Dataset kích thước: 204.70 MiB

 • Tự động lưu trữ ( tài liệu ): Chỉ khi shuffle_files=False (tàu)

 • tách:

Tách ra Các ví dụ
'train' 844.643
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'lt': Text(shape=(), dtype=tf.string),
})

para_crawl / enlv

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang lv.

 • Dung lượng tải về: 45.17 MiB

 • Dataset kích thước: 147.09 MiB

 • Tự động lưu trữ ( tài liệu ): Chỉ khi shuffle_files=False (tàu)

 • tách:

Tách ra Các ví dụ
'train' 553.060
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'lv': Text(shape=(), dtype=tf.string),
})

para_crawl / enmt

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang mt.

 • Dung lượng tải về: 18.15 MiB

 • Dataset kích thước: 54.36 MiB

 • Tự động lưu trữ ( tài liệu ): Có

 • tách:

Tách ra Các ví dụ
'train' 195.502
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'mt': Text(shape=(), dtype=tf.string),
})

para_crawl / ennl

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang NL.

 • Dung lượng tải về: 400.63 MiB

 • Kích thước tập dữ liệu: 1.40 GiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 5.659.268
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'nl': Text(shape=(), dtype=tf.string),
})

para_crawl / enpl

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang PL.

 • Dung lượng tải về: 257.90 MiB

 • Dataset kích thước: 885.63 MiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 3.503.276
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'pl': Text(shape=(), dtype=tf.string),
})

para_crawl / enpt

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang pt.

 • Dung lượng tải về: 608.62 MiB

 • Kích thước tập dữ liệu: 2.05 GiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 8.141.940
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'pt': Text(shape=(), dtype=tf.string),
})

para_crawl / đăng ký

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang ro.

 • Dung lượng tải về: 153.24 MiB

 • Dataset kích thước: 534.34 MiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 1.952.043
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'ro': Text(shape=(), dtype=tf.string),
})

para_crawl / ensk

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang sk.

 • Dung lượng tải về: 96.61 MiB

 • Dataset kích thước: 352.91 MiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 1.591.831
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'sk': Text(shape=(), dtype=tf.string),
})

para_crawl / ensl

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang sl.

 • Dung lượng tải về: 62.02 MiB

 • Dataset kích thước: 187.66 MiB

 • Tự động lưu trữ ( tài liệu ): Chỉ khi shuffle_files=False (tàu)

 • tách:

Tách ra Các ví dụ
'train' 660.161
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'sl': Text(shape=(), dtype=tf.string),
})

para_crawl / ensv

 • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang sv.

 • Dung lượng tải về: 262.76 MiB

 • Dataset kích thước: 905.72 MiB

 • Tự động lưu trữ ( tài liệu ): Không

 • tách:

Tách ra Các ví dụ
'train' 3.476.729
 • Các tính năng:
Translation({
  'en': Text(shape=(), dtype=tf.string),
  'sv': Text(shape=(), dtype=tf.string),
})