- Mô tả :
Tập hợp dữ liệu lấy từ các bản chép lại bài nói chuyện của TED để so sánh các cặp ngôn ngữ tương tự trong đó một ngôn ngữ là tài nguyên cao và ngôn ngữ kia là tài nguyên thấp.
Trang chủ : https://github.com/neulab/word-embeddings-for-nmt
Mã nguồn :
tfds.datasets.ted_hrlr_translate.Builder
Phiên bản :
-
1.0.0
(mặc định): API phân tách mới ( https://tensorflow.org/datasets/splits )
-
Kích thước tải xuống :
124.94 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{Ye2018WordEmbeddings,
author = {Ye, Qi and Devendra, Sachan and Matthieu, Felix and Sarguna, Padmanabhan and Graham, Neubig},
title = {When and Why are pre-trained word embeddings useful for Neural Machine Translation},
booktitle = {HLT-NAACL},
year = {2018},
}
ted_hrlr_translate/az_to_en (cấu hình mặc định)
Mô tả cấu hình : Dịch tập dữ liệu từ az sang en ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
1.61 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 903 |
'train' | 5,946 |
'validation' | 671 |
- Cấu trúc tính năng :
Translation({
'az': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
az | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('az', 'en')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/aztr_to_en
Mô tả cấu hình : Dịch tập dữ liệu từ az_tr sang en ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
42.54 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 903 |
'train' | 188.396 |
'validation' | 671 |
- Cấu trúc tính năng :
Translation({
'az_tr': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
az_tr | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('az_tr', 'en')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/be_to_en
Mô tả cấu hình : Dịch tập dữ liệu từ be sang en ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
1.47 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 664 |
'train' | 4,509 |
'validation' | 248 |
- Cấu trúc tính năng :
Translation({
'be': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
là | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('be', 'en')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/beru_to_en
Mô tả cấu hình : Dịch tập dữ liệu từ be_ru sang en ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
62.45 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 664 |
'train' | 212,614 |
'validation' | 248 |
- Cấu trúc tính năng :
Translation({
'be_ru': Text(shape=(), dtype=string),
'en': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
be_ru | Chữ | sợi dây | ||
vi | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('be_ru', 'en')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/es_to_pt
Mô tả cấu hình : Dịch tập dữ liệu từ es sang pt ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
9.62 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.763 |
'train' | 44,938 |
'validation' | 1,016 |
- Cấu trúc tính năng :
Translation({
'es': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
là | Chữ | sợi dây | ||
điểm | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('es', 'pt')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/fr_to_pt
Mô tả cấu hình : Tập dữ liệu dịch từ fr sang pt ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
9.74 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.494 |
'train' | 43,873 |
'validation' | 1.131 |
- Cấu trúc tính năng :
Translation({
'fr': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
bạn thân | Chữ | sợi dây | ||
điểm | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('fr', 'pt')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/gl_to_en
Mô tả cấu hình : Dịch tập dữ liệu từ gl sang en ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
2.41 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.007 |
'train' | 10,017 |
'validation' | 682 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'gl': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
gl | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('gl', 'en')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/glpt_to_en
Mô tả cấu hình : Dịch tập dữ liệu từ gl_pt sang en ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
12.90 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.007 |
'train' | 61,802 |
'validation' | 682 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'gl_pt': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
gl_pt | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('gl_pt', 'en')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/he_to_pt
Mô tả cấu hình : Dịch tập dữ liệu từ he sang pt ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
11.71 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.623 |
'train' | 48,511 |
'validation' | 1.145 |
- Cấu trúc tính năng :
Translation({
'he': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
Anh ta | Chữ | sợi dây | ||
điểm | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('he', 'pt')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/it_to_pt
Mô tả cấu hình : Dịch tập dữ liệu từ nó sang pt ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
9.94 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.669 |
'train' | 46,259 |
'validation' | 1.162 |
- Cấu trúc tính năng :
Translation({
'it': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
Nó | Chữ | sợi dây | ||
điểm | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('it', 'pt')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/pt_to_en
Mô tả cấu hình : Tập dữ liệu dịch từ pt sang en ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
10.89 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.803 |
'train' | 51,785 |
'validation' | 1.193 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'pt': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
điểm | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('pt', 'en')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/ru_to_en
Mô tả cấu hình : Tập dữ liệu dịch từ ru sang en ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
63.22 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 5,476 |
'train' | 208,106 |
'validation' | 4,805 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
ru | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('ru', 'en')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/ru_to_pt
Mô tả cấu hình : Tập dữ liệu dịch từ ru sang pt ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
13.00 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 1.588 |
'train' | 47,278 |
'validation' | 1.184 |
- Cấu trúc tính năng :
Translation({
'pt': Text(shape=(), dtype=string),
'ru': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
điểm | Chữ | sợi dây | ||
ru | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('ru', 'pt')
Ví dụ ( tfds.as_dataframe ):
ted_hrlr_translate/tr_to_en
Mô tả cấu hình : Dịch tập dữ liệu từ tr sang en ở dạng văn bản thuần túy.
Kích thước tập dữ liệu :
42.33 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 5,029 |
'train' | 182.450 |
'validation' | 4.045 |
- Cấu trúc tính năng :
Translation({
'en': Text(shape=(), dtype=string),
'tr': Text(shape=(), dtype=string),
})
- Tài liệu tính năng :
Tính năng | Lớp học | Hình dạng | Dtype | Sự miêu tả |
---|---|---|---|---|
Dịch | ||||
vi | Chữ | sợi dây | ||
tr | Chữ | sợi dây |
Các khóa được giám sát (Xem
as_supervised
doc ):('tr', 'en')
Ví dụ ( tfds.as_dataframe ):