- Descriptif :
Un nouvel ensemble de données de 7 787 véritables questions scientifiques à choix multiples de niveau scolaire, rassemblées pour encourager la recherche dans les questions-réponses avancées. L'ensemble de données est divisé en un ensemble Challenge et un ensemble facile, où le premier ne contient que des questions auxquelles ont répondu de manière incorrecte à la fois par un algorithme basé sur la récupération et un algorithme de cooccurrence de mots. Nous incluons également un corpus de plus de 14 millions de phrases scientifiques pertinentes pour la tâche, et une mise en œuvre de trois modèles de base neuronaux pour cet ensemble de données. Nous posons l'ARC comme un défi pour la communauté.
Par rapport à l'ensemble de données d'origine, cela ajoute des phrases contextuelles obtenues par récupération d'informations de la même manière que UnifiedQA (voir : https://arxiv.org/abs/2005.00700 ).
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://allenai.org/data/arc
Code source :
tfds.datasets.ai2_arc_with_ir.Builder
Versions :
-
1.0.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
3.68 MiB
Mise en cache automatique ( documentation ): Oui
Structure des fonctionnalités :
FeaturesDict({
'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=5),
'choices': Sequence({
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
'text': Text(shape=(), dtype=string),
}),
'id': Text(shape=(), dtype=string),
'paragraph': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
answerKey | Étiquette de classe | int64 | ||
les choix | Séquence | |||
choix/étiquette | Étiquette de classe | int64 | ||
choix/texte | Texte | chaîne de caractères | ||
identifiant | Texte | chaîne de caractères | ||
paragraphe | Texte | chaîne de caractères | ||
question | Texte | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{allenai:arc,
author = {Peter Clark and Isaac Cowhey and Oren Etzioni and Tushar Khot and
Ashish Sabharwal and Carissa Schoenick and Oyvind Tafjord},
title = {Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge},
journal = {arXiv:1803.05457v1},
year = {2018},
}
@article{2020unifiedqa,
title={UnifiedQA: Crossing Format Boundaries With a Single QA System},
author={D. Khashabi and S. Min and T. Khot and A. Sabhwaral and O. Tafjord and P. Clark and H. Hajishirzi},
journal={arXiv preprint},
year={2020}
}
ai2_arc_with_ir/ARC-Challenge-IR (configuration par défaut)
Description de la configuration : Défi Ensemble de 2590 questions "difficiles" (celles auxquelles une méthode de récupération et une méthode de cooccurrence échouent à répondre correctement)
Taille du jeu de données :
3.76 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 1 172 |
'train' | 1 119 |
'validation' | 299 |
- Exemples ( tfds.as_dataframe ):
ai2_arc_with_ir/ARC-Easy-IR
Description de la configuration : Easy Set de 5197 questions pour l'ARC Challenge.
Taille du jeu de données :
7.49 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 2 376 |
'train' | 2 251 |
'validation' | 570 |
- Exemples ( tfds.as_dataframe ):