- Deskripsi :
TyDi QA adalah kumpulan data penjawab pertanyaan yang mencakup 11 bahasa yang beragam secara tipologis dengan 204 ribu pasangan pertanyaan-jawaban. Bahasa TyDi QA beragam sehubungan dengan tipologinya -- rangkaian fitur linguistik yang diekspresikan oleh setiap bahasa -- sehingga kami mengharapkan model yang bekerja dengan baik pada rangkaian ini untuk menggeneralisasi sejumlah besar bahasa di dunia. Ini berisi fenomena bahasa yang tidak akan ditemukan di corpora yang hanya berbahasa Inggris. Untuk memberikan tugas pencarian informasi yang realistis dan menghindari efek priming, pertanyaan ditulis oleh orang yang ingin tahu jawabannya, tetapi belum tahu jawabannya, (tidak seperti SQuAD dan keturunannya) dan data dikumpulkan langsung di setiap bahasa tanpa menggunakan terjemahan (tidak seperti MLQA dan XQuAD).
Perpecahan pelatihan:
'train': Ini adalah tugas GoldP dari makalah TyDi QA asli [ https://arxiv.org/abs/2003.05002 ] yang memiliki data pelatihan berlabel bahasa asli.
'translate-train-*': Pemisahan ini adalah terjemahan otomatis dari bahasa Inggris ke setiap bahasa target yang digunakan dalam baseline terjemahan-kereta dalam makalah XTREME [ https://arxiv.org/abs/2003.11080 ]. Ini dengan sengaja mengabaikan data pelatihan TyDiQA-GoldP non-Bahasa Inggris untuk mensimulasikan skenario pembelajaran transfer di mana data bahasa asli tidak tersedia dan pembuat sistem harus bergantung pada data bahasa Inggris berlabel plus sistem terjemahan mesin yang ada.
Biasanya, Anda harus menggunakan SALAH SATU train atau translate-train split, tetapi tidak keduanya.
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Deskripsi konfigurasi : Tugas jalur emas (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
Beranda : https://github.com/google-research-datasets/tydiqa
Kode sumber :
tfds.question_answering.TydiQA
Versi :
-
3.0.0
(default): Memperbaiki masalah dengan sejumlah contoh di mana rentang jawaban tidak selaras karena penghapusan spasi konteks. Perubahan ini berdampak pada sekitar 25% contoh kereta dan pengembang.
-
Ukuran unduhan :
121.30 MiB
Ukuran dataset :
98.35 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :
Membelah | Contoh |
---|---|
'train' | 49.881 |
'translate-train-ar' | 3.661 |
'translate-train-bn' | 3.585 |
'translate-train-fi' | 3.670 |
'translate-train-id' | 3.667 |
'translate-train-ko' | 3.607 |
'translate-train-ru' | 3.394 |
'translate-train-sw' | 3.622 |
'translate-train-te' | 3.658 |
'validation' | 5.077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- Struktur fitur :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
jawaban | Urutan | |||
jawaban/jawaban_mulai | Tensor | int32 | ||
jawaban/teks | Teks | rangkaian | ||
konteks | Teks | rangkaian | ||
Indo | Tensor | rangkaian | ||
pertanyaan | Teks | rangkaian | ||
judul | Teks | rangkaian |
Kunci yang diawasi (Lihat
as_supervised
doc ):None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):
- Kutipan :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}