tydi_qa

  • Mô tả :

TyDi QA là bộ dữ liệu trả lời câu hỏi bao gồm 11 ngôn ngữ đa dạng về kiểu chữ với 204K cặp câu hỏi-câu trả lời. Các ngôn ngữ của TyDi QA rất đa dạng về loại hình của chúng -- tập hợp các đặc điểm ngôn ngữ mà mỗi ngôn ngữ thể hiện -- vì vậy chúng tôi mong đợi các mô hình hoạt động tốt trên tập hợp này sẽ khái quát hóa trên một số lượng lớn ngôn ngữ trên thế giới. Nó chứa đựng những hiện tượng ngôn ngữ không thể tìm thấy trong ngữ liệu chỉ dùng tiếng Anh. Để cung cấp một nhiệm vụ tìm kiếm thông tin thực tế và tránh các hiệu ứng mồi, các câu hỏi được viết bởi những người muốn biết câu trả lời, nhưng chưa biết câu trả lời, (không giống như SQuAD và các hậu duệ của nó) và dữ liệu được thu thập trực tiếp bằng từng ngôn ngữ mà không cần sử dụng bản dịch (không giống như MLQA và XQuAD).

Phân chia đào tạo:

'đào tạo': Đây là nhiệm vụ GoldP từ bài báo gốc của TyDi QA [ https://arxiv.org/abs/2003.05002 ] có dữ liệu đào tạo được gắn nhãn ngôn ngữ gốc.

'translate-train-*': Các phần tách này là các bản dịch tự động từ tiếng Anh sang từng ngôn ngữ đích được sử dụng trong đường cơ sở dịch-đào tạo trong bài báo XTREME [ https://arxiv.org/abs/2003.11080 ]. Điều này cố tình bỏ qua dữ liệu đào tạo TyDiQA-GoldP không phải tiếng Anh để mô phỏng kịch bản học chuyển đổi khi không có sẵn dữ liệu ngôn ngữ gốc và các nhà xây dựng hệ thống phải dựa vào dữ liệu tiếng Anh được gắn nhãn cộng với các hệ thống dịch máy hiện có.

Thông thường, bạn nên sử dụng HOẶC tách tàu hoặc dịch-tàu, chứ không phải cả hai.

Tách ra ví dụ
'train' 49,881
'translate-train-ar' 3,661
'translate-train-bn' 3,585
'translate-train-fi' 3.670
'translate-train-id' 3,667
'translate-train-ko' 3,607
'translate-train-ru' 3,394
'translate-train-sw' 3,622
'translate-train-te' 3,658
'validation' 5,077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Cấu trúc tính năng :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
câu trả lời Sự phối hợp
câu trả lời/answer_start tenxơ int32
câu trả lời/văn bản Chữ sợi dây
định nghĩa bài văn Chữ sợi dây
Tôi tenxơ sợi dây
câu hỏi Chữ sợi dây
Tiêu đề Chữ sợi dây
  • trích dẫn :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (cấu hình mặc định)