tydi_qa

  • Mô tả:

TyDi QA là bộ dữ liệu trả lời câu hỏi bao gồm 11 ngôn ngữ đa dạng về kiểu chữ với 204 nghìn cặp câu hỏi-trả lời. Các ngôn ngữ của TyDi QA rất đa dạng liên quan đến kiểu chữ của chúng - tập hợp các đặc điểm ngôn ngữ mà mỗi ngôn ngữ thể hiện - do đó chúng tôi mong đợi các mô hình hoạt động tốt trên tập hợp này để tổng quát hóa trên một số lượng lớn các ngôn ngữ trên thế giới. Nó chứa các hiện tượng ngôn ngữ không thể tìm thấy trong kho ngữ liệu chỉ tiếng Anh. Để cung cấp một nhiệm vụ tìm kiếm thông tin thực tế và tránh các hiệu ứng mồi, câu hỏi được viết bởi những người muốn biết câu trả lời, nhưng chưa biết câu trả lời, (không giống như SQuAD và các phiên bản con của nó) và dữ liệu được thu thập trực tiếp bằng từng ngôn ngữ mà không cần sử dụng bản dịch (không giống như MLQA và XQuAD).

Phân chia đào tạo:

'tàu': Đây là nhiệm vụ GoldP từ giấy TyDi QA gốc [ https://arxiv.org/abs/2003.05002 ] có dữ liệu đào tạo ngôn ngữ gốc nhãn.

'* dịch-vé tàu': Những chia rẽ là những bản dịch tự động từ tiếng Anh sang ngôn ngữ mục tiêu từng được sử dụng trong đường cơ sở dịch đường sắt trong các giấy XTREME [ https://arxiv.org/abs/2003.11080 ]. Điều này có mục đích bỏ qua dữ liệu đào tạo TyDiQA-GoldP không phải tiếng Anh để mô phỏng kịch bản học chuyển đổi trong đó dữ liệu ngôn ngữ gốc không có sẵn và người xây dựng hệ thống phải dựa vào dữ liệu tiếng Anh được gắn nhãn cộng với hệ thống dịch máy hiện có.

Thông thường, bạn nên sử dụng EITHER phần tách tàu hoặc dịch-tàu, nhưng không sử dụng cả hai.

Tách ra Các ví dụ
'train' 49.881
'translate-train-ar' 3.661
'translate-train-bn' 3.585
'translate-train-fi' 3.670
'translate-train-id' 3.667
'translate-train-ko' 3.607
'translate-train-ru' 3.394
'translate-train-sw' 3.622
'translate-train-te' 3.658
'validation' 5,077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Các tính năng:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Trích dẫn:
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa / goldp (cấu hình mặc định)