Bộ dữ liệu đa ngôn ngữ (60 ngôn ngữ) được lấy từ bản ghi TED Talk. Mỗi bản ghi bao gồm các mảng ngôn ngữ và văn bản song song. Các bản dịch còn thiếu và chưa hoàn chỉnh sẽ được lọc ra.

Tách ra Các ví dụ
'test' 7.213
'train' 258.098
'validation' 6,049
  • Cấu trúc tính năng :
    'talk_name': Text(shape=(), dtype=tf.string),
    'translations': TranslationVariableLanguages({
        'language': Text(shape=(), dtype=tf.string),
        'translation': Text(shape=(), dtype=tf.string),
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự miêu tả
Các tính năng
talk_name Bản văn tf.string
bản dịch Bản dịch
bản dịch / ngôn ngữ Bản văn tf.string
bản dịch / dịch thuật Bản văn tf.string
