asqa

  • Descrição :

O ASQA é o primeiro conjunto de dados de resposta a perguntas de formato longo que se concentra em perguntas factóides ambíguas. Diferente dos conjuntos de dados anteriores de respostas de formato longo, cada pergunta é anotada com respostas de formato longo e pares extrativos de pergunta-resposta, que devem ser respondidos pela passagem gerada. Uma resposta de formato longo gerada será avaliada usando a precisão ROUGE e QA. Mostramos que essas métricas de avaliação se correlacionam bem com o julgamento humano. Neste repositório, liberamos o conjunto de dados ASQA, juntamente com o código de avaliação: <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>

Dividir Exemplos
'dev' 948
'train' 4.353
  • Estrutura de recursos :
FeaturesDict({
   
'ambiguous_question': Text(shape=(), dtype=string),
   
'annotations': Sequence({
       
'knowledge': Sequence({
           
'content': Text(shape=(), dtype=string),
           
'wikipage': Text(shape=(), dtype=string),
       
}),
       
'long_answer': Text(shape=(), dtype=string),
   
}),
   
'qa_pairs': Sequence({
       
'context': Text(shape=(), dtype=string),
       
'question': Text(shape=(), dtype=string),
       
'short_answers': Sequence(Text(shape=(), dtype=string)),
       
'wikipage': Text(shape=(), dtype=string),
   
}),
   
'sample_id': int32,
   
'wikipages': Sequence({
       
'title': Text(shape=(), dtype=string),
       
'url': Text(shape=(), dtype=string),
   
}),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
pergunta_ambigua Texto corda Pergunta desambiguada do AmbigQA.
anotações Seqüência Respostas longas para a pergunta ambígua construída pelos anotadores da ASQA.
anotações/conhecimento Seqüência Lista de peças de conhecimento adicionais.
anotações/conhecimento/conteúdo Texto corda Uma passagem da Wikipédia.
anotações/conhecimento/wikipage Texto corda Título da página da Wikipédia da qual o trecho foi retirado.
anotações/resposta_longa Texto corda Anotação.
qa_pairs Seqüência Pares de perguntas e respostas do AmbigQA que são usados ​​para desambiguação.
qa_pairs/contexto Texto corda Contexto adicional fornecido.
qa_pairs/pergunta Texto corda
qa_pairs/short_answers Sequência (Texto) (Nenhum,) corda Lista de respostas curtas do AmbigQA.
qa_pairs/wikipage Texto corda Título da página da Wikipédia da qual o contexto adicional foi retirado.
sample_id tensor int32
páginas wiki Seqüência Lista de páginas da Wikipédia visitadas por anotadores do AmbigQA.
páginas wiki/título Texto corda Título da página da Wikipédia.
wikipages/url Texto corda Link para a página da Wikipédia.
  • Citação :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi
= {10.48550/ARXIV.2204.06092},
url
= {https://arxiv.org/abs/2204.06092},
author
= {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords
= {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title
= {ASQA: Factoid Questions Meet Long-Form Answers},
publisher
= {arXiv},
year
= {2022},
copyright
= {arXiv.org perpetual, non-exclusive license}
}