tydi_qa

  • opis :

TyDi QA to zestaw danych z odpowiedziami na pytania, obejmujący 11 zróżnicowanych typologicznie języków z 204 tys. par pytanie-odpowiedź. Języki TyDi QA są zróżnicowane pod względem ich typologii – zestawu cech językowych, które wyraża każdy język – tak, że oczekujemy, że modele dobrze działające w tym zestawie będą uogólniane na wiele języków na świecie. Zawiera zjawiska językowe, których nie można znaleźć w korpusach wyłącznie anglojęzycznych. Aby zapewnić realistyczne zadanie poszukiwania informacji i uniknąć efektu torowania, pytania są pisane przez ludzi, którzy chcą znać odpowiedź, ale jeszcze jej nie znają (w przeciwieństwie do SQuAD i jego następców), a dane są gromadzone bezpośrednio w każdym języku bez użycia tłumaczenia (w przeciwieństwie do MLQA i XQuAD).

Podziały treningów:

„pociąg”: To jest zadanie GoldP z oryginalnego dokumentu TyDi QA [ https://arxiv.org/abs/2003.05002 ], który zawiera dane szkoleniowe oznaczone etykietami w języku oryginalnym.

„translate-train-*”: Te podziały to automatyczne tłumaczenia z angielskiego na każdy język docelowy używany w liniach bazowych translacji w dokumencie XTREME [ https://arxiv.org/abs/2003.11080 ]. To celowo ignoruje dane szkoleniowe TyDiQA-GoldP w języku innym niż angielski, aby symulować scenariusz uczenia transferowego, w którym dane w języku oryginalnym nie są dostępne, a konstruktorzy systemów muszą polegać na oznaczonych danych w języku angielskim oraz istniejących systemach tłumaczenia maszynowego.

Zazwyczaj powinieneś użyć JEDNEGO podziału pociągu lub tłumaczenia pociągu, ale nie obu.

Rozdzielać Przykłady
'train' 49881
'translate-train-ar' 3661
'translate-train-bn' 3585
'translate-train-fi' 3670
'translate-train-id' 3667
'translate-train-ko' 3607
'translate-train-ru' 3394
'translate-train-sw' 3622
'translate-train-te' 3658
'validation' 5077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Struktura funkcji :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
odpowiedzi Sekwencja
odpowiedzi/odpowiedź_start Napinacz int32
odpowiedzi/tekst Tekst strunowy
kontekst Tekst strunowy
ID Napinacz strunowy
pytanie Tekst strunowy
tytuł Tekst strunowy
  • Cytat :
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa/goldp (domyślna konfiguracja)