- Mô tả :
Dịch tập dữ liệu dựa trên dữ liệu từ statmt.org.
Các phiên bản tồn tại cho các năm khác nhau bằng cách sử dụng kết hợp nhiều nguồn dữ liệu. Cơ sở wmt_translate
cho phép bạn tạo cấu hình của riêng mình để chọn cặp dữ liệu/ngôn ngữ của riêng bạn bằng cách tạo tfds.translate.wmt.WmtConfig
tùy chỉnh.
config = tfds.translate.wmt.WmtConfig(
version="0.0.1",
language_pair=("fr", "de"),
subsets={
tfds.Split.TRAIN: ["commoncrawl_frde"],
tfds.Split.VALIDATION: ["euelections_dev2019"],
},
)
builder = tfds.builder("wmt_translate", config=config)
Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : http://www.statmt.org/wmt16/translation-task.html
Mã nguồn :
tfds.translate.Wmt16Translate
Phiên bản :
-
1.0.0
(mặc định): Không có ghi chú phát hành.
-
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào
download_config.manual_dir
(mặc định là~/tensorflow_datasets/downloads/manual/
):
Một số cấu hình wmt ở đây, yêu cầu tải xuống thủ công. Vui lòng xem wmt.py để xem đường dẫn chính xác (và tên tệp) phải được tải xuống.Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@InProceedings{bojar-EtAl:2016:WMT1,
author = {Bojar, Ond
{r}ej and Chatterjee, Rajen and Federmann, Christian and Graham, Yvette and Haddow, Barry and Huck, Matthias and Jimeno Yepes, Antonio and Koehn, Philipp and Logacheva, Varvara and Monz, Christof and Negri, Matteo and Neveol, Aurelie and Neves, Mariana and Popel, Martin and Post, Matt and Rubino, Raphael and Scarton, Carolina and Specia, Lucia and Turchi, Marco and Verspoor, Karin and Zampieri, Marcos},
title = {Findings of the 2016 Conference on Machine Translation},
booktitle = {Proceedings of the First Conference on Machine Translation},
month = {August},
year = {2016},
address = {Berlin, Germany},
publisher = {Association for Computational Linguistics},
pages = {131--198},
url = {http://www.aclweb.org/anthology/W/W16/W16-2301}
}
wmt16_translate/cs-en (cấu hình mặc định)
Mô tả cấu hình : Bộ dữ liệu tác vụ dịch WMT 2016 cs-en.
Kích thước tải xuống :
1.57 GiB
Kích thước tập dữ liệu :
7.56 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.999 |
'train' | 52.335.651 |
'validation' | 2.656 |
- Cấu trúc tính năng :
Translation({
'cs': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
cs | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('cs', 'en')
Ví dụ ( tfds.as_dataframe ):
wmt16_translate/de-en
Mô tả cấu hình : Bộ dữ liệu nhiệm vụ dịch thuật WMT 2016 de-en.
Kích thước tải xuống :
1.57 GiB
Kích thước tập dữ liệu :
1.38 GiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.999 |
'train' | 4.548.885 |
'validation' | 2.169 |
- Cấu trúc tính năng :
Translation({
'de': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
de | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('de', 'en')
Ví dụ ( tfds.as_dataframe ):
wmt16_translate/fi-en
Mô tả cấu hình : Bộ dữ liệu tác vụ dịch fi-en WMT 2016.
Kích thước tải xuống :
260.51 MiB
Kích thước tập dữ liệu :
624.31 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 6.000 |
'train' | 2.073.394 |
'validation' | 1.370 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'fi': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
fi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('fi', 'en')
Ví dụ ( tfds.as_dataframe ):
wmt16_translate/ro-en
Mô tả cấu hình : Bộ dữ liệu tác vụ dịch ro-en WMT 2016.
Kích thước tải xuống :
273.83 MiB
Kích thước tập dữ liệu :
194.35 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Có (kiểm tra, xác thực), Chỉ khi
shuffle_files=False
(đào tạo)Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.999 |
'train' | 610.320 |
'validation' | 1.999 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'ro': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
ro | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('ro', 'en')
Ví dụ ( tfds.as_dataframe ):
wmt16_translate/ru-en
Mô tả cấu hình : Tập dữ liệu tác vụ dịch ru-en WMT 2016.
Kích thước tải xuống :
993.38 MiB
Kích thước tập dữ liệu :
854.44 MiB
Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 2.998 |
'train' | 2.516.162 |
'validation' | 2.818 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
ru | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('ru', 'en')
Ví dụ ( tfds.as_dataframe ):
wmt16_translate/tr-en
Mô tả cấu hình : Bộ dữ liệu tác vụ dịch tr-en WMT 2016.
Kích thước tải xuống :
59.32 MiB
Kích thước tập dữ liệu :
63.21 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 3.000 |
'train' | 205,756 |
'validation' | 1.001 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
tr | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('tr', 'en')
Ví dụ ( tfds.as_dataframe ):