- Descriptif :
L'ASQA est le premier ensemble de données de questions-réponses de forme longue qui se concentre sur des questions factoïdes ambiguës. Différent des ensembles de données de réponses longues précédentes, chaque question est annotée à la fois avec des réponses longues et des paires question-réponse extractives, qui doivent répondre par le passage généré. Une réponse détaillée générée sera évaluée en utilisant à la fois la précision ROUGE et QA. Nous avons montré que ces métriques d'évaluation étaient bien corrélées avec le jugement humain. Dans ce référentiel, nous publions l'ensemble de données ASQA, ainsi que le code d'évaluation : <a href="https://github.com/google-research/language/tree/master/language/asqa">https://github.com/google-research/language/tree/master/language/asqa</a>
Page d' accueil : https://github.com/google-research/language/tree/master/language/asqa
Code source :
tfds.datasets.asqa.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
17.86 MiB
Taille du jeu de données :
14.50 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'dev' | 948 |
'train' | 4 353 |
- Structure des fonctionnalités :
FeaturesDict({
'ambiguous_question': Text(shape=(), dtype=string),
'annotations': Sequence({
'knowledge': Sequence({
'content': Text(shape=(), dtype=string),
'wikipage': Text(shape=(), dtype=string),
}),
'long_answer': Text(shape=(), dtype=string),
}),
'qa_pairs': Sequence({
'context': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'short_answers': Sequence(Text(shape=(), dtype=string)),
'wikipage': Text(shape=(), dtype=string),
}),
'sample_id': int32,
'wikipages': Sequence({
'title': Text(shape=(), dtype=string),
'url': Text(shape=(), dtype=string),
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
question_ambiguë | Texte | chaîne de caractères | Question désambiguïsée d'AmbigQA. | |
annotations | Séquence | Réponses longues à la question ambiguë construite par les annotateurs de l'ASQA. | ||
annotations/connaissances | Séquence | Liste des connaissances supplémentaires. | ||
annotations/connaissances/contenu | Texte | chaîne de caractères | Un passage de Wikipédia. | |
annotations/connaissances/wikipage | Texte | chaîne de caractères | Titre de la page Wikipédia d'où provient le passage. | |
annotations/réponse_longue | Texte | chaîne de caractères | Annotation. | |
qa_pairs | Séquence | Paires Q&A d'AmbigQA qui sont utilisées pour la désambiguïsation. | ||
qa_pairs/contexte | Texte | chaîne de caractères | Contexte supplémentaire fourni. | |
qa_pairs/question | Texte | chaîne de caractères | ||
qa_pairs/short_answers | Séquence (texte) | (Aucun,) | chaîne de caractères | Liste de réponses courtes d'AmbigQA. |
qa_pairs/wikipage | Texte | chaîne de caractères | Titre de la page Wikipédia dont le contexte supplémentaire a été extrait. | |
sample_id | Tenseur | int32 | ||
pages wiki | Séquence | Liste des pages Wikipédia visitées par les annotateurs AmbigQA. | ||
pages wiki/titre | Texte | chaîne de caractères | Titre de la page Wikipédia. | |
pages wiki/url | Texte | chaîne de caractères | Lien vers la page Wikipédia. |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@misc{https://doi.org/10.48550/arxiv.2204.06092,
doi = {10.48550/ARXIV.2204.06092},
url = {https://arxiv.org/abs/2204.06092},
author = {Stelmakh, Ivan and Luan, Yi and Dhingra, Bhuwan and Chang, Ming-Wei},
keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
title = {ASQA: Factoid Questions Meet Long-Form Answers},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}