- Mô tả:
Corpora song song quy mô web cho các ngôn ngữ chính thức của Châu Âu.
Trang chủ: https://paracrawl.eu/releases.html
Source code:
tfds.translate.ParaCrawl
phiên bản:
-
1.2.0
(mặc định): Không có ghi chú phát hành.
-
Hình ( tfds.show_examples ): Không được hỗ trợ.
Trích dẫn:
@misc {paracrawl,
title = "ParaCrawl",
year = "2018",
url = "http://paracrawl.eu/download.html."
}
para_crawl / enbg (cấu hình mặc định)
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang bg.
Dung lượng tải về:
98.94 MiB
Dataset kích thước:
362.46 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 1,039,885 |
- Các tính năng:
Translation({
'bg': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'bg')
Ví dụ ( tfds.as_dataframe ):
para_crawl / encs
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang cs.
Dung lượng tải về:
187.31 MiB
Dataset kích thước:
666.34 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 2.981.949 |
- Các tính năng:
Translation({
'cs': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'cs')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enda
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang da.
Dung lượng tải về:
174.34 MiB
Dataset kích thước:
619.77 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 2.414.895 |
- Các tính năng:
Translation({
'da': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'da')
Ví dụ ( tfds.as_dataframe ):
para_crawl / ende
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang de.
Dung lượng tải về:
1.22 GiB
Kích thước tập dữ liệu:
4.04 GiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 16.264.448 |
- Các tính năng:
Translation({
'de': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'de')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enel
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang el.
Dung lượng tải về:
184.59 MiB
Dataset kích thước:
698.75 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 1.985.233 |
- Các tính năng:
Translation({
'el': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'el')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enes
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang es.
Dung lượng tải về:
1.82 GiB
Kích thước tập dữ liệu:
6.23 GiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 21.987.267 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'es': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'es')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enet
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang et.
Dung lượng tải về:
66.91 MiB
Dataset kích thước:
209.16 MiB
Tự động lưu trữ ( tài liệu ): Chỉ khi
shuffle_files=False
(tàu)tách:
Tách ra | Các ví dụ |
---|---|
'train' | 853.422 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'et': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'et')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enfi
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang fi.
Dung lượng tải về:
151.83 MiB
Dataset kích thước:
543.85 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 2.156.069 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'fi': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'fi')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enfr
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang fr.
Dung lượng tải về:
2.63 GiB
Kích thước tập dữ liệu:
9.04 GiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 31.374.161 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'fr': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'fr')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enga
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang ga.
Dung lượng tải về:
28.03 MiB
Dataset kích thước:
107.09 MiB
Tự động lưu trữ ( tài liệu ): Có
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 357.399 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'ga': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'ga')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enhr
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang hr.
Dung lượng tải về:
80.97 MiB
Dataset kích thước:
256.37 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 1.002.053 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'hr': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'hr')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enhu
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang hu.
Dung lượng tải về:
114.24 MiB
Dataset kích thước:
421.40 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 1.901.342 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'hu': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'hu')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enit
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang nó.
Dung lượng tải về:
1017.30 MiB
Kích thước tập dữ liệu:
3.36 GiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 12.162.239 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'it': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'it')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enlt
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang LT.
Dung lượng tải về:
63.28 MiB
Dataset kích thước:
204.70 MiB
Tự động lưu trữ ( tài liệu ): Chỉ khi
shuffle_files=False
(tàu)tách:
Tách ra | Các ví dụ |
---|---|
'train' | 844.643 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'lt': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'lt')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enlv
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang lv.
Dung lượng tải về:
45.17 MiB
Dataset kích thước:
147.09 MiB
Tự động lưu trữ ( tài liệu ): Chỉ khi
shuffle_files=False
(tàu)tách:
Tách ra | Các ví dụ |
---|---|
'train' | 553.060 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'lv': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'lv')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enmt
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang mt.
Dung lượng tải về:
18.15 MiB
Dataset kích thước:
54.36 MiB
Tự động lưu trữ ( tài liệu ): Có
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 195.502 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'mt': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'mt')
Ví dụ ( tfds.as_dataframe ):
para_crawl / ennl
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang NL.
Dung lượng tải về:
400.63 MiB
Kích thước tập dữ liệu:
1.40 GiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 5.659.268 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'nl': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'nl')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enpl
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang PL.
Dung lượng tải về:
257.90 MiB
Dataset kích thước:
885.63 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 3.503.276 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'pl': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'pl')
Ví dụ ( tfds.as_dataframe ):
para_crawl / enpt
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang pt.
Dung lượng tải về:
608.62 MiB
Kích thước tập dữ liệu:
2.05 GiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 8.141.940 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'pt': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'pt')
Ví dụ ( tfds.as_dataframe ):
para_crawl / đăng ký
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang ro.
Dung lượng tải về:
153.24 MiB
Dataset kích thước:
534.34 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 1.952.043 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'ro': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'ro')
Ví dụ ( tfds.as_dataframe ):
para_crawl / ensk
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang sk.
Dung lượng tải về:
96.61 MiB
Dataset kích thước:
352.91 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 1.591.831 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'sk': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'sk')
Ví dụ ( tfds.as_dataframe ):
para_crawl / ensl
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang sl.
Dung lượng tải về:
62.02 MiB
Dataset kích thước:
187.66 MiB
Tự động lưu trữ ( tài liệu ): Chỉ khi
shuffle_files=False
(tàu)tách:
Tách ra | Các ví dụ |
---|---|
'train' | 660.161 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'sl': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'sl')
Ví dụ ( tfds.as_dataframe ):
para_crawl / ensv
Config mô tả: Dịch bộ dữ liệu từ tiếng Anh sang sv.
Dung lượng tải về:
262.76 MiB
Dataset kích thước:
905.72 MiB
Tự động lưu trữ ( tài liệu ): Không
tách:
Tách ra | Các ví dụ |
---|---|
'train' | 3.476.729 |
- Các tính năng:
Translation({
'en': Text(shape=(), dtype=tf.string),
'sv': Text(shape=(), dtype=tf.string),
})
Phím giám sát (Xem
as_supervised
doc ):('en', 'sv')
Ví dụ ( tfds.as_dataframe ):