tydi_qa

  • Deskripsi :

TyDi QA adalah kumpulan data penjawab pertanyaan yang mencakup 11 bahasa yang beragam secara tipologis dengan 204 ribu pasangan pertanyaan-jawaban. Bahasa TyDi QA beragam sehubungan dengan tipologinya -- rangkaian fitur linguistik yang diekspresikan oleh setiap bahasa -- sehingga kami mengharapkan model yang bekerja dengan baik pada rangkaian ini untuk menggeneralisasi sejumlah besar bahasa di dunia. Ini berisi fenomena bahasa yang tidak akan ditemukan di corpora yang hanya berbahasa Inggris. Untuk memberikan tugas pencarian informasi yang realistis dan menghindari efek priming, pertanyaan ditulis oleh orang yang ingin tahu jawabannya, tetapi belum tahu jawabannya, (tidak seperti SQuAD dan keturunannya) dan data dikumpulkan langsung di setiap bahasa tanpa menggunakan terjemahan (tidak seperti MLQA dan XQuAD).

Perpecahan pelatihan:

'train': Ini adalah tugas GoldP dari makalah TyDi QA asli [ https://arxiv.org/abs/2003.05002 ] yang memiliki data pelatihan berlabel bahasa asli.

'translate-train-*': Pemisahan ini adalah terjemahan otomatis dari bahasa Inggris ke setiap bahasa target yang digunakan dalam baseline terjemahan-kereta dalam makalah XTREME [ https://arxiv.org/abs/2003.11080 ]. Ini dengan sengaja mengabaikan data pelatihan TyDiQA-GoldP non-Bahasa Inggris untuk mensimulasikan skenario pembelajaran transfer di mana data bahasa asli tidak tersedia dan pembuat sistem harus bergantung pada data bahasa Inggris berlabel plus sistem terjemahan mesin yang ada.

Biasanya, Anda harus menggunakan SALAH SATU train atau translate-train split, tetapi tidak keduanya.

Membelah Contoh
'train' 49.881
'translate-train-ar' 3.661
'translate-train-bn' 3.585
'translate-train-fi' 3.670
'translate-train-id' 3.667
'translate-train-ko' 3.607
'translate-train-ru' 3.394
'translate-train-sw' 3.622
'translate-train-te' 3.658
'validation' 5.077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Struktur fitur :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
jawaban Urutan
jawaban/jawaban_mulai Tensor int32
jawaban/teks Teks rangkaian
konteks Teks rangkaian
Indo Tensor rangkaian
pertanyaan Teks rangkaian
judul Teks rangkaian
  • Kutipan :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (konfigurasi default)