- opis :
TyDi QA to zestaw danych z odpowiedziami na pytania, obejmujący 11 zróżnicowanych typologicznie języków z 204 tys. par pytanie-odpowiedź. Języki TyDi QA są zróżnicowane pod względem ich typologii – zestawu cech językowych, które wyraża każdy język – tak, że oczekujemy, że modele dobrze działające w tym zestawie będą uogólniane na wiele języków na świecie. Zawiera zjawiska językowe, których nie można znaleźć w korpusach wyłącznie anglojęzycznych. Aby zapewnić realistyczne zadanie poszukiwania informacji i uniknąć efektu torowania, pytania są pisane przez ludzi, którzy chcą znać odpowiedź, ale jeszcze jej nie znają (w przeciwieństwie do SQuAD i jego następców), a dane są gromadzone bezpośrednio w każdym języku bez użycia tłumaczenia (w przeciwieństwie do MLQA i XQuAD).
Podziały treningów:
„pociąg”: To jest zadanie GoldP z oryginalnego dokumentu TyDi QA [ https://arxiv.org/abs/2003.05002 ], który zawiera dane szkoleniowe oznaczone etykietami w języku oryginalnym.
„translate-train-*”: Te podziały to automatyczne tłumaczenia z angielskiego na każdy język docelowy używany w liniach bazowych translacji w dokumencie XTREME [ https://arxiv.org/abs/2003.11080 ]. To celowo ignoruje dane szkoleniowe TyDiQA-GoldP w języku innym niż angielski, aby symulować scenariusz uczenia transferowego, w którym dane w języku oryginalnym nie są dostępne, a konstruktorzy systemów muszą polegać na oznaczonych danych w języku angielskim oraz istniejących systemach tłumaczenia maszynowego.
Zazwyczaj powinieneś użyć JEDNEGO podziału pociągu lub tłumaczenia pociągu, ale nie obu.
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Opis konfiguracji: zadanie przejścia Gold (GoldP) ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
Strona główna : https://github.com/google-research-datasets/tydiqa
Kod źródłowy :
tfds.question_answering.TydiQA
Wersje :
-
3.0.0
(domyślnie): Rozwiązuje problem z wieloma przykładami, w których zakresy odpowiedzi są źle wyrównane z powodu usunięcia białych znaków kontekstu. Ta zmiana dotyczy około 25% przykładów pociągów i deweloperów.
-
Rozmiar pliku do pobrania :
121.30 MiB
Rozmiar zestawu danych :
98.35 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Rozdzielać | Przykłady |
---|---|
'train' | 49881 |
'translate-train-ar' | 3661 |
'translate-train-bn' | 3585 |
'translate-train-fi' | 3670 |
'translate-train-id' | 3667 |
'translate-train-ko' | 3607 |
'translate-train-ru' | 3394 |
'translate-train-sw' | 3622 |
'translate-train-te' | 3658 |
'validation' | 5077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- Struktura funkcji :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
odpowiedzi | Sekwencja | |||
odpowiedzi/odpowiedź_start | Napinacz | int32 | ||
odpowiedzi/tekst | Tekst | strunowy | ||
kontekst | Tekst | strunowy | ||
ID | Napinacz | strunowy | ||
pytanie | Tekst | strunowy | ||
tytuł | Tekst | strunowy |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}