- Descrizione :
ASQA è il primo set di dati con risposte a domande di lunga durata incentrato su domande fattuali ambigue. A differenza dei precedenti set di dati con risposte in formato lungo, ogni domanda è annotata sia con risposte in formato lungo che con coppie domanda-risposta estrattive, a cui dovrebbe essere possibile rispondere dal passaggio generato. Una risposta di lunga durata generata verrà valutata utilizzando sia la precisione ROUGE che quella del QA. Abbiamo dimostrato che questi parametri di valutazione erano ben correlati con il giudizio umano. In questo repository rilasciamo il set di dati ASQA, insieme al codice di valutazione: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
Home page : https://github.com/google-research/lingual/tree/master/lingual/asqa
Codice sorgente :
tfds.datasets.asqa.Builder
Versioni :
-
1.0.0
(impostazione predefinita): versione iniziale. -
2.0.0
: l'ID campione va da int32 (overflow) a int64.
-
Dimensione download :
17.86 MiB
Dimensione del set di dati :
14.50 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :
Diviso | Esempi |
---|---|
'dev' | 948 |
'train' | 4.353 |
- Struttura delle caratteristiche :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int64,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
domanda_ambigua | Testo | corda | Domanda disambiguata da AmbigQA. | |
annotazioni | Sequenza | Risposte in formato lungo alla domanda ambigua costruita dagli annotatori ASQA. | ||
annotazioni/conoscenze | Sequenza | Elenco di elementi di conoscenza aggiuntivi. | ||
annotazioni/conoscenze/contenuti | Testo | corda | Un passaggio da Wikipedia. | |
annotazioni/conoscenza/pagina wiki | Testo | corda | Titolo della pagina Wikipedia da cui è stato tratto il brano. | |
annotazioni/risposta_lunga | Testo | corda | Annotazione. | |
qa_pairs | Sequenza | Coppie di domande e risposte di AmbigQA utilizzate per chiarire le ambiguità. | ||
qa_coppie/contesto | Testo | corda | Contesto aggiuntivo fornito. | |
qa_coppie/domanda | Testo | corda | ||
qa_coppie/risposte_brevi | Sequenza(Testo) | (Nessuno,) | corda | Elenco di risposte brevi di AmbigQA. |
qa_pairs/wikipage | Testo | corda | Titolo della pagina Wikipedia da cui è stato tratto il contesto aggiuntivo. | |
id_campione | Tensore | int64 | ||
pagine wiki | Sequenza | Elenco delle pagine Wikipedia visitate dagli annotatori di AmbigQA. | ||
pagine wiki/titolo | Testo | corda | Titolo della pagina Wikipedia. | |
pagine wiki/URL | Testo | corda | Collegamento alla pagina Wikipedia. |
Chiavi supervisionate (vedi il documento
as_supervised
):None
Figura ( tfds.show_examples ): non supportato.
Esempi ( tfds.as_dataframe ):
- Citazione :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}