- Descriptif :
Stanford Question Answering Dataset (SQuAD) est un ensemble de données de compréhension de lecture, composé de questions posées par des crowdworkers sur un ensemble d'articles de Wikipédia, où la réponse à chaque question est un segment de texte, ou une étendue, du passage de lecture correspondant, ou la question pourrait être sans réponse.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://rajpurkar.github.io/SQuAD-explorer/
Code source :
tfds.datasets.squad.Builder
Versions :
-
3.0.0
(par défaut) : résout le problème avec un petit nombre d'exemples (19) où les plages de réponses sont mal alignées en raison de la suppression des espaces blancs de contexte.
-
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{2016arXiv160605250R,
author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
Konstantin and {Liang}, Percy},
title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
journal = {arXiv e-prints},
year = 2016,
eid = {arXiv:1606.05250},
pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
eprint = {1606.05250},
}
squad/v1.1 (configuration par défaut)
Description de la configuration : Version 1.1.0 de SQUAD
Taille du téléchargement :
33.51 MiB
Taille du jeu de données :
94.06 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 87 599 |
'validation' | 10 570 |
- Structure des fonctionnalités :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
réponses | Séquence | |||
réponses/answer_start | Tenseur | int32 | ||
réponses/texte | Texte | chaîne | ||
le contexte | Texte | chaîne | ||
identifiant | Tenseur | chaîne | ||
question | Texte | chaîne | ||
Titre | Texte | chaîne |
- Exemples ( tfds.as_dataframe ):
équipe/v2.0
Description de la configuration : Version 2.0.0 de SQUAD
Taille du téléchargement :
44.34 MiB
Taille du jeu de données :
148.54 MiB
Mise en cache automatique ( documentation ) : Oui (validation), uniquement lorsque
shuffle_files=False
(train)Fractionnements :
Diviser | Exemples |
---|---|
'train' | 130 319 |
'validation' | 11 873 |
- Structure des fonctionnalités :
FeaturesDict({
'answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'context': Text(shape=(), dtype=string),
'id': string,
'is_impossible': bool,
'plausible_answers': Sequence({
'answer_start': int32,
'text': Text(shape=(), dtype=string),
}),
'question': Text(shape=(), dtype=string),
'title': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
réponses | Séquence | |||
réponses/answer_start | Tenseur | int32 | ||
réponses/texte | Texte | chaîne | ||
le contexte | Texte | chaîne | ||
identifiant | Tenseur | chaîne | ||
est impossible | Tenseur | bourdonner | ||
réponses_plausibles | Séquence | |||
réponses_plausibles/début_réponse | Tenseur | int32 | ||
réponses_plausibles/texte | Texte | chaîne | ||
question | Texte | chaîne | ||
Titre | Texte | chaîne |
- Exemples ( tfds.as_dataframe ):