équipe

  • Descriptif :

Stanford Question Answering Dataset (SQuAD) est un ensemble de données de compréhension de lecture, composé de questions posées par des crowdworkers sur un ensemble d'articles de Wikipédia, où la réponse à chaque question est un segment de texte, ou une étendue, du passage de lecture correspondant, ou la question pourrait être sans réponse.

@article{2016arXiv160605250R,
       author
= { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 
Konstantin and {Liang}, Percy},
        title
= "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal
= {arXiv e-prints},
         year
= 2016,
          eid
= {arXiv:1606.05250},
        pages
= {arXiv:1606.05250},
archivePrefix
= {arXiv},
       eprint
= {1606.05250},
}

squad/v1.1 (configuration par défaut)

  • Description de la configuration : Version 1.1.0 de SQUAD

  • Taille du téléchargement : 33.51 MiB

  • Taille du jeu de données : 94.06 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'train' 87 599
'validation' 10 570
  • Structure des fonctionnalités :
FeaturesDict({
   
'answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'context': Text(shape=(), dtype=string),
   
'id': string,
   
'question': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
réponses Séquence
réponses/answer_start Tenseur int32
réponses/texte Texte chaîne
le contexte Texte chaîne
identifiant Tenseur chaîne
question Texte chaîne
Titre Texte chaîne

équipe/v2.0

  • Description de la configuration : Version 2.0.0 de SQUAD

  • Taille du téléchargement : 44.34 MiB

  • Taille du jeu de données : 148.54 MiB

  • Mise en cache automatique ( documentation ) : Oui (validation), uniquement lorsque shuffle_files=False (train)

  • Fractionnements :

Diviser Exemples
'train' 130 319
'validation' 11 873
  • Structure des fonctionnalités :
FeaturesDict({
   
'answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'context': Text(shape=(), dtype=string),
   
'id': string,
   
'is_impossible': bool,
   
'plausible_answers': Sequence({
       
'answer_start': int32,
       
'text': Text(shape=(), dtype=string),
   
}),
   
'question': Text(shape=(), dtype=string),
   
'title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
réponses Séquence
réponses/answer_start Tenseur int32
réponses/texte Texte chaîne
le contexte Texte chaîne
identifiant Tenseur chaîne
est impossible Tenseur bourdonner
réponses_plausibles Séquence
réponses_plausibles/début_réponse Tenseur int32
réponses_plausibles/texte Texte chaîne
question Texte chaîne
Titre Texte chaîne