tydi_qa

  • Açıklama :

TyDi QA, 204 bin soru-cevap çifti ile tipolojik olarak farklı 11 dili kapsayan bir soru yanıtlama veri kümesidir. TyDi QA'nın dilleri, tipolojilerine (her dilin ifade ettiği dilsel özellikler kümesi) göre çeşitlilik gösterir; öyle ki, bu kümede iyi performans gösteren modellerin dünyadaki çok sayıda dilde genelleme yapmasını bekleriz. Yalnızca İngilizce olan derlemlerde bulunamayacak dil olgularını içerir. Gerçekçi bir bilgi arama görevi sağlamak ve ön hazırlık etkilerinden kaçınmak için sorular, yanıtı bilmek isteyen ancak henüz yanıtı bilmeyen kişiler tarafından yazılır (SQuAD ve onun soyundan gelenlerin aksine) ve veriler doğrudan her dilde toplanır. çeviri kullanılmadan (MLQA ve XQuAD'den farklı olarak).

Eğitim bölümleri:

'tren': Bu, orijinal dil etiketli eğitim verilerini içeren orijinal TyDi QA belgesinden [ https://arxiv.org/abs/2003.05002 ] GoldP görevidir.

'translate-train-*': Bu bölümler, XTREME belgesindeki [ https://arxiv.org/abs/2003.11080 ] translate-train temel çizgilerinde kullanılan İngilizce'den her bir hedef dile otomatik çevirilerdir. Bu, orijinal dil verilerinin mevcut olmadığı ve sistem kurucularının etiketli İngilizce verilere ve mevcut makine çevirisi sistemlerine güvenmek zorunda olduğu transfer öğrenme senaryosunu simüle etmek için İngilizce olmayan TyDiQA-GoldP eğitim verilerini kasıtlı olarak yok sayar.

Tipik olarak, YA treni ya da tercüme-tren ayrımını kullanmalısınız, ancak ikisini birden kullanmamalısınız.

Bölmek örnekler
'train' 49.881
'translate-train-ar' 3.661
'translate-train-bn' 3.585
'translate-train-fi' 3.670
'translate-train-id' 3.667
'translate-train-ko' 3.607
'translate-train-ru' 3.394
'translate-train-sw' 3.622
'translate-train-te' 3.658
'validation' 5.077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Özellik yapısı :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
Yanıtlar Sekans
cevaplar/cevap_başlangıç tensör int32
cevaplar/metin Metin sicim
bağlam Metin sicim
İD tensör sicim
soru Metin sicim
Başlık Metin sicim
  • Alıntı :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (varsayılan yapılandırma)