- Opis :
ASQA to pierwszy zbiór danych o długiej formie, w którym odpowiada się na pytania skupiające się na niejednoznacznych pytaniach dotyczących faktów. W odróżnieniu od poprzednich zbiorów danych dotyczących odpowiedzi w długiej formie, każde pytanie jest opatrzone adnotacją zarówno z odpowiedziami w formie długiej, jak i wyodrębnionymi parami pytanie-odpowiedź, na które powinna odpowiadać wygenerowany fragment. Wygenerowana długa odpowiedź zostanie oceniona przy użyciu zarówno dokładności ROUGE, jak i kontroli jakości. Pokazaliśmy, że te wskaźniki oceny dobrze korelują z ludzką oceną. W tym repozytorium udostępniamy zbiór danych ASQA wraz z kodem ewaluacyjnym: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
Strona główna : https://github.com/google-research/language/tree/master/language/asqa
Kod źródłowy :
tfds.datasets.asqa.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja pierwsza. -
2.0.0
: Identyfikator próbki zmienia się z int32 (przepełnienie) na int64.
-
Rozmiar pobierania :
17.86 MiB
Rozmiar zbioru danych :
14.50 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :
Podział | Przykłady |
---|---|
'dev' | 948 |
'train' | 4353 |
- Struktura funkcji :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDykt | ||||
niejednoznaczne_pytanie | Tekst | smyczkowy | Ujednoznaczniające pytanie od AmbigQA. | |
adnotacje | Sekwencja | Długie odpowiedzi na niejednoznaczne pytanie skonstruowane przez komentatorów ASQA. | ||
adnotacje/wiedza | Sekwencja | Lista dodatkowych elementów wiedzy. | ||
adnotacje/wiedza/treść | Tekst | smyczkowy | Fragment z Wikipedii. | |
adnotacje/wiedza/strona wiki | Tekst | smyczkowy | Tytuł strony Wikipedii, z której pochodzi fragment. | |
adnotacje/długa_odpowiedź | Tekst | smyczkowy | Adnotacja. | |
qa_pairs | Sekwencja | Pary pytań i odpowiedzi z AmbigQA, które służą do ujednoznacznienia. | ||
qa_pairs/context | Tekst | smyczkowy | Podano dodatkowy kontekst. | |
qa_pairs/pytanie | Tekst | smyczkowy | ||
qa_pairs/short_answers | Sekwencja (tekst) | (Nic,) | smyczkowy | Lista krótkich odpowiedzi od AmbigQA. |
qa_pairs/wikipage | Tekst | smyczkowy | Tytuł strony Wikipedii, z której zaczerpnięto dodatkowy kontekst. | |
identyfikator_próbki | Napinacz | int64 | ||
strony wiki | Sekwencja | Lista stron Wikipedii odwiedzonych przez adnotatorów AmbigQA. | ||
strony wiki/tytuł | Tekst | smyczkowy | Tytuł strony Wikipedii. | |
strony wiki/adres URL | Tekst | smyczkowy | Link do strony Wikipedii. |
Klucze nadzorowane (zobacz dokument
as_supervised
):None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Przykłady ( tfds.as_dataframe ):
- Cytat :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}