para_crawl

  • Mô tả:

Corpora song song quy mô web cho các ngôn ngữ chính thức của Châu Âu.

@misc {paracrawl,
    title  = "ParaCrawl",
    year   = "2018",
    url    = "http://paracrawl.eu/download.html."
}

para_crawl / enbg (cấu hình mặc định)

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang bg.

  • Dung lượng tải về: 98.94 MiB

  • Dataset kích thước: 362.46 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 1,039,885
  • Các tính năng:
Translation({
    'bg': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / encs

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang cs.

  • Dung lượng tải về: 187.31 MiB

  • Dataset kích thước: 666.34 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 2.981.949
  • Các tính năng:
Translation({
    'cs': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enda

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang da.

  • Dung lượng tải về: 174.34 MiB

  • Dataset kích thước: 619.77 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 2.414.895
  • Các tính năng:
Translation({
    'da': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / ende

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang de.

  • Dung lượng tải về: 1.22 GiB

  • Kích thước tập dữ liệu: 4.04 GiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 16.264.448
  • Các tính năng:
Translation({
    'de': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enel

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang el.

  • Dung lượng tải về: 184.59 MiB

  • Dataset kích thước: 698.75 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 1.985.233
  • Các tính năng:
Translation({
    'el': Text(shape=(), dtype=tf.string),
    'en': Text(shape=(), dtype=tf.string),
})

para_crawl / enes

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang es.

  • Dung lượng tải về: 1.82 GiB

  • Kích thước tập dữ liệu: 6.23 GiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 21.987.267
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'es': Text(shape=(), dtype=tf.string),
})

para_crawl / enet

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang et.

  • Dung lượng tải về: 66.91 MiB

  • Dataset kích thước: 209.16 MiB

  • Tự động lưu trữ ( tài liệu ): Chỉ khi shuffle_files=False (tàu)

  • tách:

Tách ra Các ví dụ
'train' 853.422
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'et': Text(shape=(), dtype=tf.string),
})

para_crawl / enfi

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang fi.

  • Dung lượng tải về: 151.83 MiB

  • Dataset kích thước: 543.85 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 2.156.069
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fi': Text(shape=(), dtype=tf.string),
})

para_crawl / enfr

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang fr.

  • Dung lượng tải về: 2.63 GiB

  • Kích thước tập dữ liệu: 9.04 GiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 31.374.161
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'fr': Text(shape=(), dtype=tf.string),
})

para_crawl / enga

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang ga.

  • Dung lượng tải về: 28.03 MiB

  • Dataset kích thước: 107.09 MiB

  • Tự động lưu trữ ( tài liệu ): Có

  • tách:

Tách ra Các ví dụ
'train' 357.399
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ga': Text(shape=(), dtype=tf.string),
})

para_crawl / enhr

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang hr.

  • Dung lượng tải về: 80.97 MiB

  • Dataset kích thước: 256.37 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 1.002.053
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'hr': Text(shape=(), dtype=tf.string),
})

para_crawl / enhu

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang hu.

  • Dung lượng tải về: 114.24 MiB

  • Dataset kích thước: 421.40 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 1.901.342
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'hu': Text(shape=(), dtype=tf.string),
})

para_crawl / enit

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang nó.

  • Dung lượng tải về: 1017.30 MiB

  • Kích thước tập dữ liệu: 3.36 GiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 12.162.239
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'it': Text(shape=(), dtype=tf.string),
})

para_crawl / enlt

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang LT.

  • Dung lượng tải về: 63.28 MiB

  • Dataset kích thước: 204.70 MiB

  • Tự động lưu trữ ( tài liệu ): Chỉ khi shuffle_files=False (tàu)

  • tách:

Tách ra Các ví dụ
'train' 844.643
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'lt': Text(shape=(), dtype=tf.string),
})

para_crawl / enlv

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang lv.

  • Dung lượng tải về: 45.17 MiB

  • Dataset kích thước: 147.09 MiB

  • Tự động lưu trữ ( tài liệu ): Chỉ khi shuffle_files=False (tàu)

  • tách:

Tách ra Các ví dụ
'train' 553.060
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'lv': Text(shape=(), dtype=tf.string),
})

para_crawl / enmt

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang mt.

  • Dung lượng tải về: 18.15 MiB

  • Dataset kích thước: 54.36 MiB

  • Tự động lưu trữ ( tài liệu ): Có

  • tách:

Tách ra Các ví dụ
'train' 195.502
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'mt': Text(shape=(), dtype=tf.string),
})

para_crawl / ennl

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang NL.

  • Dung lượng tải về: 400.63 MiB

  • Kích thước tập dữ liệu: 1.40 GiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 5.659.268
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'nl': Text(shape=(), dtype=tf.string),
})

para_crawl / enpl

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang PL.

  • Dung lượng tải về: 257.90 MiB

  • Dataset kích thước: 885.63 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 3.503.276
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'pl': Text(shape=(), dtype=tf.string),
})

para_crawl / enpt

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang pt.

  • Dung lượng tải về: 608.62 MiB

  • Kích thước tập dữ liệu: 2.05 GiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 8.141.940
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'pt': Text(shape=(), dtype=tf.string),
})

para_crawl / đăng ký

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang ro.

  • Dung lượng tải về: 153.24 MiB

  • Dataset kích thước: 534.34 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 1.952.043
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'ro': Text(shape=(), dtype=tf.string),
})

para_crawl / ensk

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang sk.

  • Dung lượng tải về: 96.61 MiB

  • Dataset kích thước: 352.91 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 1.591.831
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'sk': Text(shape=(), dtype=tf.string),
})

para_crawl / ensl

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang sl.

  • Dung lượng tải về: 62.02 MiB

  • Dataset kích thước: 187.66 MiB

  • Tự động lưu trữ ( tài liệu ): Chỉ khi shuffle_files=False (tàu)

  • tách:

Tách ra Các ví dụ
'train' 660.161
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'sl': Text(shape=(), dtype=tf.string),
})

para_crawl / ensv

  • Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang sv.

  • Dung lượng tải về: 262.76 MiB

  • Dataset kích thước: 905.72 MiB

  • Tự động lưu trữ ( tài liệu ): Không

  • tách:

Tách ra Các ví dụ
'train' 3.476.729
  • Các tính năng:
Translation({
    'en': Text(shape=(), dtype=tf.string),
    'sv': Text(shape=(), dtype=tf.string),
})