- Descriptif :
L'ensemble de données d'équivalence de réponse contient des évaluations humaines sur les prédictions de modèles de plusieurs modèles de l'ensemble de données SQuAD. Les notations établissent si la réponse prédite est "équivalente" à la réponse or (en tenant compte à la fois de la question et du contexte).
Plus précisément, par "équivalent", nous entendons que la réponse prédite contient au moins les mêmes informations que la réponse or et n'ajoute pas d'informations superflues. L'ensemble de données contient des annotations pour : * les prédictions de BiDAF sur SQuAD dev * les prédictions de XLNet sur SQuAD dev * les prédictions de Luke sur SQuAD dev * les prédictions d'Albert sur les exemples de formation, de développement et de test SQuAD
Page d' accueil : https://github.com/google-research-datasets/answer-equivalence-dataset
Code source :
tfds.datasets.answer_equivalence.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
45.86 MiB
Taille du jeu de données :
47.24 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'ae_dev' | 4 446 |
'ae_test' | 9 724 |
'dev_bidaf' | 7 522 |
'dev_luke' | 4 590 |
'dev_xlnet' | 7 932 |
'train' | 9 090 |
- Structure des fonctionnalités :
FeaturesDict({
'candidate': Text(shape=(), dtype=string),
'context': Text(shape=(), dtype=string),
'gold_index': int32,
'qid': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),
'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),
'reference': Text(shape=(), dtype=string),
'score': float32,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
candidat | Texte | chaîne de caractères | ||
le contexte | Texte | chaîne de caractères | ||
gold_index | Tenseur | int32 | ||
qid | Texte | chaîne de caractères | ||
question | Texte | chaîne de caractères | ||
question 1 | Étiquette de classe | int64 | ||
question 2 | Étiquette de classe | int64 | ||
question 3 | Étiquette de classe | int64 | ||
question_4 | Étiquette de classe | int64 | ||
référence | Texte | chaîne de caractères | ||
score | Tenseur | float32 |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@article{bulian-etal-2022-tomayto,
title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
year={2022},
eprint={2202.07654},
archivePrefix={arXiv},
primaryClass={cs.CL}
}