asqa

  • Descrizione :

ASQA è il primo set di dati con risposte a domande di lunga durata incentrato su domande fattuali ambigue. A differenza dei precedenti set di dati con risposte in formato lungo, ogni domanda è annotata sia con risposte in formato lungo che con coppie domanda-risposta estrattive, a cui dovrebbe essere possibile rispondere dal passaggio generato. Una risposta di lunga durata generata verrà valutata utilizzando sia la precisione ROUGE che quella del QA. Abbiamo dimostrato che questi parametri di valutazione erano ben correlati con il giudizio umano. In questo repository rilasciamo il set di dati ASQA, insieme al codice di valutazione: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>

Diviso Esempi
'dev' 948
'train' 4.353
  • Struttura delle caratteristiche :
FeaturesDict({
    'ambiguous_question': Text(shape=(), dtype=string),
    'annotations': Sequence({
        'knowledge': Sequence({
            'content': Text(shape=(), dtype=string),
            'wikipage': Text(shape=(), dtype=string),
        }),
        'long_answer': Text(shape=(), dtype=string),
    }),
    'qa_pairs': Sequence({
        'context': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
        'short_answers': Sequence(Text(shape=(), dtype=string)),
        'wikipage': Text(shape=(), dtype=string),
    }),
    'sample_id': int64,
    'wikipages': Sequence({
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
domanda_ambigua Testo corda Domanda disambiguata da AmbigQA.
annotazioni Sequenza Risposte in formato lungo alla domanda ambigua costruita dagli annotatori ASQA.
annotazioni/conoscenze Sequenza Elenco di elementi di conoscenza aggiuntivi.
annotazioni/conoscenze/contenuti Testo corda Un passaggio da Wikipedia.
annotazioni/conoscenza/pagina wiki Testo corda Titolo della pagina Wikipedia da cui è stato tratto il brano.
annotazioni/risposta_lunga Testo corda Annotazione.
qa_pairs Sequenza Coppie di domande e risposte di AmbigQA utilizzate per chiarire le ambiguità.
qa_coppie/contesto Testo corda Contesto aggiuntivo fornito.
qa_coppie/domanda Testo corda
qa_coppie/risposte_brevi Sequenza(Testo) (Nessuno,) corda Elenco di risposte brevi di AmbigQA.
qa_pairs/wikipage Testo corda Titolo della pagina Wikipedia da cui è stato tratto il contesto aggiuntivo.
id_campione Tensore int64
pagine wiki Sequenza Elenco delle pagine Wikipedia visitate dagli annotatori di AmbigQA.
pagine wiki/titolo Testo corda Titolo della pagina Wikipedia.
pagine wiki/URL Testo corda Collegamento alla pagina Wikipedia.
  • Citazione :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}