ted_hrlr_translate

  • Mô tả :

Tập hợp dữ liệu lấy từ các bản chép lại bài nói chuyện của TED để so sánh các cặp ngôn ngữ tương tự trong đó một ngôn ngữ là tài nguyên cao và ngôn ngữ kia là tài nguyên thấp.

@inproceedings{Ye2018WordEmbeddings,
  author  = {Ye, Qi and Devendra, Sachan and Matthieu, Felix and Sarguna, Padmanabhan and Graham, Neubig},
  title   = {When and Why are pre-trained word embeddings useful for Neural Machine Translation},
  booktitle = {HLT-NAACL},
  year    = {2018},
  }

ted_hrlr_translate/az_to_en (cấu hình mặc định)

  • Mô tả cấu hình : Dịch tập dữ liệu từ az sang en ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 1.61 MiB

  • Chia tách :

Tách ra ví dụ
'test' 903
'train' 5,946
'validation' 671
  • Cấu trúc tính năng :
Translation({
    'az': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
az Chữ sợi dây
vi Chữ sợi dây

ted_hrlr_translate/aztr_to_en

  • Mô tả cấu hình : Dịch tập dữ liệu từ az_tr sang en ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 42.54 MiB

  • Chia tách :

Tách ra ví dụ
'test' 903
'train' 188.396
'validation' 671
  • Cấu trúc tính năng :
Translation({
    'az_tr': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
az_tr Chữ sợi dây
vi Chữ sợi dây

ted_hrlr_translate/be_to_en

  • Mô tả cấu hình : Dịch tập dữ liệu từ be sang en ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 1.47 MiB

  • Chia tách :

Tách ra ví dụ
'test' 664
'train' 4,509
'validation' 248
  • Cấu trúc tính năng :
Translation({
    'be': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
Chữ sợi dây
vi Chữ sợi dây

ted_hrlr_translate/beru_to_en

  • Mô tả cấu hình : Dịch tập dữ liệu từ be_ru sang en ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 62.45 MiB

  • Chia tách :

Tách ra ví dụ
'test' 664
'train' 212,614
'validation' 248
  • Cấu trúc tính năng :
Translation({
    'be_ru': Text(shape=(), dtype=string),
    'en': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
be_ru Chữ sợi dây
vi Chữ sợi dây

ted_hrlr_translate/es_to_pt

  • Mô tả cấu hình : Dịch tập dữ liệu từ es sang pt ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 9.62 MiB

  • Chia tách :

Tách ra ví dụ
'test' 1.763
'train' 44,938
'validation' 1,016
  • Cấu trúc tính năng :
Translation({
    'es': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
Chữ sợi dây
điểm Chữ sợi dây

ted_hrlr_translate/fr_to_pt

  • Mô tả cấu hình : Tập dữ liệu dịch từ fr sang pt ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 9.74 MiB

  • Chia tách :

Tách ra ví dụ
'test' 1.494
'train' 43,873
'validation' 1.131
  • Cấu trúc tính năng :
Translation({
    'fr': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
bạn thân Chữ sợi dây
điểm Chữ sợi dây

ted_hrlr_translate/gl_to_en

  • Mô tả cấu hình : Dịch tập dữ liệu từ gl sang en ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 2.41 MiB

  • Chia tách :

Tách ra ví dụ
'test' 1.007
'train' 10,017
'validation' 682
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'gl': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
vi Chữ sợi dây
gl Chữ sợi dây

ted_hrlr_translate/glpt_to_en

  • Mô tả cấu hình : Dịch tập dữ liệu từ gl_pt sang en ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 12.90 MiB

  • Chia tách :

Tách ra ví dụ
'test' 1.007
'train' 61,802
'validation' 682
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'gl_pt': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
vi Chữ sợi dây
gl_pt Chữ sợi dây

ted_hrlr_translate/he_to_pt

  • Mô tả cấu hình : Dịch tập dữ liệu từ he sang pt ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 11.71 MiB

  • Chia tách :

Tách ra ví dụ
'test' 1.623
'train' 48,511
'validation' 1.145
  • Cấu trúc tính năng :
Translation({
    'he': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
Anh ta Chữ sợi dây
điểm Chữ sợi dây

ted_hrlr_translate/it_to_pt

  • Mô tả cấu hình : Dịch tập dữ liệu từ nó sang pt ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 9.94 MiB

  • Chia tách :

Tách ra ví dụ
'test' 1.669
'train' 46,259
'validation' 1.162
  • Cấu trúc tính năng :
Translation({
    'it': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
Chữ sợi dây
điểm Chữ sợi dây

ted_hrlr_translate/pt_to_en

  • Mô tả cấu hình : Tập dữ liệu dịch từ pt sang en ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 10.89 MiB

  • Chia tách :

Tách ra ví dụ
'test' 1.803
'train' 51,785
'validation' 1.193
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'pt': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
vi Chữ sợi dây
điểm Chữ sợi dây

ted_hrlr_translate/ru_to_en

  • Mô tả cấu hình : Tập dữ liệu dịch từ ru sang en ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 63.22 MiB

  • Chia tách :

Tách ra ví dụ
'test' 5,476
'train' 208,106
'validation' 4,805
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
vi Chữ sợi dây
ru Chữ sợi dây

ted_hrlr_translate/ru_to_pt

  • Mô tả cấu hình : Tập dữ liệu dịch từ ru sang pt ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 13.00 MiB

  • Chia tách :

Tách ra ví dụ
'test' 1.588
'train' 47,278
'validation' 1.184
  • Cấu trúc tính năng :
Translation({
    'pt': Text(shape=(), dtype=string),
    'ru': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
điểm Chữ sợi dây
ru Chữ sợi dây

ted_hrlr_translate/tr_to_en

  • Mô tả cấu hình : Dịch tập dữ liệu từ tr sang en ở dạng văn bản thuần túy.

  • Kích thước tập dữ liệu : 42.33 MiB

  • Chia tách :

Tách ra ví dụ
'test' 5,029
'train' 182.450
'validation' 4.045
  • Cấu trúc tính năng :
Translation({
    'en': Text(shape=(), dtype=string),
    'tr': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Dịch
vi Chữ sợi dây
tr Chữ sợi dây