- Mô tả :
Dịch tập dữ liệu dựa trên dữ liệu từ statmt.org.
Các phiên bản tồn tại trong các năm khác nhau bằng cách sử dụng kết hợp nhiều nguồn dữ liệu. Cơ sở wmt_translate
cho phép bạn tạo cấu hình của riêng mình để chọn cặp dữ liệu / ngôn ngữ của riêng bạn bằng cách tạo tfds.translate.wmt.WmtConfig
tùy chỉnh.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Trang chủ : http://www.statmt.org/wmt19/translation-task.html
Mã nguồn :
tfds.translate.Wmt19Translate
Các phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Kích thước tập dữ liệu :
Unknown size
Hướng dẫn tải xuống thủ công: Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Một số cấu hình wmt ở đây, yêu cầu tải xuống thủ công. Vui lòng xem wmt.py để xem đường dẫn chính xác (và tên tệp) phải được tải xuống.Tự động lưu trong bộ nhớ đệm ( tài liệu ): Không xác định
Hình ( tfds.show_examples ): Không được hỗ trợ.
Ví dụ ( tfds.as_dataframe ): Thiếu.
Trích dẫn :
@ONLINE {wmt19translate,
author = "Wikimedia Foundation",
title = "ACL 2019 Fourth Conference on Machine Translation (WMT19), Shared Task: Machine Translation of News",
url = "http://www.statmt.org/wmt19/translation-task.html"
}
wmt19_translate / cs-en (cấu hình mặc định)
Mô tả cấu hình : Tập dữ liệu tác vụ dịch cs-en WMT 2019.
Kích thước tải xuống :
1.88 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 20.246.548 |
'validation' | 2.983 |
- Cấu trúc tính năng :
Translation({
'cs': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
cs | Chữ | tf.string | ||
en | Chữ | tf.string |
- Khóa được giám sát (Xem
as_supervised
doc ):('cs', 'en')
wmt19_translate / de-en
Mô tả cấu hình : Tập dữ liệu nhiệm vụ dịch de-en WMT 2019.
Kích thước tải xuống :
9.71 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 38.690.334 |
'validation' | 2.998 |
- Cấu trúc tính năng :
Translation({
'de': Text(shape=(), dtype=tf.string),
'en': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
de | Chữ | tf.string | ||
en | Chữ | tf.string |
- Các khóa được giám sát (Xem
as_supervised
doc ):('de', 'en')
wmt19_translate / fi-en
Mô tả cấu hình : Tập dữ liệu nhiệm vụ dịch fi-en WMT 2019.
Kích thước tải xuống :
959.46 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 6,587,448 |
'validation' | 3.000 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=tf.string),
'fi': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
en | Chữ | tf.string | ||
fi | Chữ | tf.string |
- Các khóa được giám sát (Xem
as_supervised
doc ):('fi', 'en')
wmt19_translate / gu-en
Mô tả cấu hình : Tập dữ liệu nhiệm vụ dịch gu-en WMT 2019.
Kích thước tải xuống :
37.03 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 11.670 |
'validation' | 1.998 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=tf.string),
'gu': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
en | Chữ | tf.string | ||
gu | Chữ | tf.string |
- Các khóa được giám sát (Xem
as_supervised
doc ):('gu', 'en')
wmt19_translate / kk-en
Mô tả cấu hình : Tập dữ liệu tác vụ dịch kk-en WMT 2019.
Kích thước tải xuống :
39.58 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 126.583 |
'validation' | 2.066 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=tf.string),
'kk': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
en | Chữ | tf.string | ||
kk | Chữ | tf.string |
- Các khóa được giám sát (Xem
as_supervised
doc ):('kk', 'en')
wmt19_translate / lt-en
Mô tả cấu hình : Tập dữ liệu nhiệm vụ dịch lt-en WMT 2019.
Kích thước tải xuống :
392.20 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 2.344.893 |
'validation' | 2.000 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=tf.string),
'lt': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
en | Chữ | tf.string | ||
lt | Chữ | tf.string |
- Các khóa được giám sát (Xem
as_supervised
doc ):('lt', 'en')
wmt19_translate / ru-en
Mô tả cấu hình : Tập dữ liệu tác vụ dịch ru-en WMT 2019.
Kích thước tải xuống :
3.86 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 38.492.126 |
'validation' | 3.000 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=tf.string),
'ru': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
en | Chữ | tf.string | ||
ru | Chữ | tf.string |
- Các khóa được giám sát (Xem
as_supervised
doc ):('ru', 'en')
wmt19_translate / zh-en
Mô tả cấu hình : Tập dữ liệu tác vụ dịch zh-en của WMT 2019.
Kích thước tải xuống :
2.04 GiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 25.986.436 |
'validation' | 3.981 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=tf.string),
'zh': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
en | Chữ | tf.string | ||
zh | Chữ | tf.string |
- Các khóa được giám sát (Xem
as_supervised
doc ):('zh', 'en')
wmt19_translate / fr-de
Mô tả cấu hình : Tập dữ liệu nhiệm vụ dịch fr-de WMT 2019.
Kích thước tải xuống :
722.20 MiB
Tách :
Tách ra | Các ví dụ |
---|---|
'train' | 9,824,476 |
'validation' | 1.512 |
- Cấu trúc tính năng :
Translation({
'de': Text(shape=(), dtype=tf.string),
'fr': Text(shape=(), dtype=tf.string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Loại | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
de | Chữ | tf.string | ||
fr | Chữ | tf.string |
- Các khóa được giám sát (Xem
as_supervised
doc ):('fr', 'de')