- Mô tả :
Web-Scale Parallel Corpora cho các ngôn ngữ chính thức của Châu Âu.
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://paracrawl.eu/releases.html
Mã nguồn :
tfds.datasets.para_crawl.Builder
Phiên bản :
-
1.2.0
(mặc định): Không có ghi chú phát hành.
-
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@misc {paracrawl,
title = "ParaCrawl",
year = "2018",
url = "http://paracrawl.eu/download.html."
}
para_crawl/enbg (cấu hình mặc định)
Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang bg.
Kích thước tải xuống :
98.94 MiB
Kích thước tập dữ liệu :
362.46 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.039.885 |
- Cấu trúc tính năng :
Translation({
'bg': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
bg | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'bg')
Ví dụ ( tfds.as_dataframe ):
para_crawl/encs
Mô tả cấu hình : Tập dữ liệu dịch từ tiếng Anh sang cs.
Kích thước tải xuống :
187.31 MiB
Kích thước tập dữ liệu :
666.34 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2.981.949 |
- Cấu trúc tính năng :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
cs | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'cs')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enda
Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang da.
Kích thước tải xuống :
174.34 MiB
Kích thước tập dữ liệu :
619.77 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2.414.895 |
- Cấu trúc tính năng :
Translation({
'da': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
da | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'da')
Ví dụ ( tfds.as_dataframe ):
para_crawl/ende
Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang de.
Kích thước tải xuống :
1.22 GiB
Kích thước tập dữ liệu :
4.04 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 16.264.448 |
- Cấu trúc tính năng :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
de | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'de')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enel
Mô tả cấu hình : Tập dữ liệu dịch từ tiếng Anh sang el.
Kích thước tải xuống :
184.59 MiB
Kích thước tập dữ liệu :
698.75 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.985.233 |
- Cấu trúc tính năng :
Translation({
'el': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
el | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'el')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enes
Mô tả cấu hình : Tập dữ liệu dịch từ tiếng Anh sang es.
Kích thước tải xuống :
1.82 GiB
Kích thước tập dữ liệu :
6.23 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 21.987.267 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'es': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
là | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'es')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enet
Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang et.
Kích thước tải xuống :
66.91 MiB
Kích thước tập dữ liệu :
209.16 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 853,422 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'et': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
vân vân | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'et')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enfi
Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang fi.
Kích thước tải xuống :
151.83 MiB
Kích thước tập dữ liệu :
543.85 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 2.156.069 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
fi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'fi')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enfr
Mô tả cấu hình : Tập dữ liệu dịch từ tiếng Anh sang tiếng Anh.
Kích thước tải xuống :
2.63 GiB
Kích thước tập dữ liệu :
9.04 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 31.374.161 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'fr': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
bạn thân | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'fr')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enga
Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang ga.
Kích thước tải xuống :
28.03 MiB
Kích thước tập dữ liệu :
107.09 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 357,399 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'ga': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
ga | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'ga')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enhr
Mô tả cấu hình : Tập dữ liệu dịch từ tiếng Anh sang hr.
Kích thước tải xuống :
80.97 MiB
Kích thước tập dữ liệu :
256.37 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.002.053 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'hr': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
giờ | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'hr')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enhu
Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang hu.
Kích thước tải xuống :
114.24 MiB
Kích thước tập dữ liệu :
421.40 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.901.342 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'hu': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
hu | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'hu')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enit
Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang nó.
Kích thước tải xuống :
1017.30 MiB
Kích thước tập dữ liệu :
3.36 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 12.162.239 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'it': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
nó | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'it')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enlt
Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang lt.
Kích thước tải xuống :
63.28 MiB
Kích thước tập dữ liệu :
204.70 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 844.643 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'lt': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
trung úy | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'lt')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enlv
Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang lv.
Kích thước tải xuống :
45.17 MiB
Kích thước tập dữ liệu :
147.09 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 553.060 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'lv': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
lv | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'lv')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enmt
Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang mt.
Kích thước tải xuống :
18.15 MiB
Kích thước tập dữ liệu :
54.36 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 195,502 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'mt': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
tấn | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'mt')
Ví dụ ( tfds.as_dataframe ):
para_crawl/ennl
Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang nl.
Kích thước tải xuống :
400.63 MiB
Kích thước tập dữ liệu :
1.40 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 5.659.268 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'nl': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
nl | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'nl')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enpl
Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang pl.
Kích thước tải xuống :
257.90 MiB
Kích thước tập dữ liệu :
885.63 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 3,503,276 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'pl': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
làm ơn | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'pl')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enpt
Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang pt.
Kích thước tải xuống :
608.62 MiB
Kích thước tập dữ liệu :
2.05 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 8.141.940 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
điểm | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'pt')
Ví dụ ( tfds.as_dataframe ):
para_crawl/enro
Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang ro.
Kích thước tải xuống :
153.24 MiB
Kích thước tập dữ liệu :
534.34 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.952.043 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
ro | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'ro')
Ví dụ ( tfds.as_dataframe ):
para_crawl/ensk
Mô tả cấu hình : Bộ dữ liệu dịch từ tiếng Anh sang sk.
Kích thước tải xuống :
96.61 MiB
Kích thước tập dữ liệu :
352.91 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 1.591.831 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'sk': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
sk | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'sk')
Ví dụ ( tfds.as_dataframe ):
para_crawl/ensl
Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang sl.
Kích thước tải xuống :
62.02 MiB
Kích thước tập dữ liệu :
187.66 MiB
Tự động lưu vào bộ nhớ đệm ( tài liệu ): Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 660.161 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'sl': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
sl | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'sl')
Ví dụ ( tfds.as_dataframe ):
para_crawl/ensv
Mô tả cấu hình : Dịch tập dữ liệu từ tiếng Anh sang sv.
Kích thước tải xuống :
262.76 MiB
Kích thước tập dữ liệu :
905.72 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'train' | 3,476,729 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'sv': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
sinh viên | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('en', 'sv')
Ví dụ ( tfds.as_dataframe ):