- Description :
CLEVR est un ensemble de données de diagnostic qui teste une gamme de capacités de raisonnement visuel. Il contient un minimum de biais et comporte des annotations détaillées décrivant le type de raisonnement requis par chaque question.
Documentation supplémentaire : Explorer sur les articles avec le code
Page d'accueil : https://cs.stanford.edu/people/jcjohns/clevr/
Code source :
tfds.datasets.clevr.Builder
Versions :
-
3.0.0
: Aucune note de version. -
3.1.0
(par défaut) : Ajouter un texte de question/réponse.
-
Taille du téléchargement :
17.72 GiB
Taille du jeu de données :
17.75 GiB
Mise en cache automatique ( documentation ) : Non
Divisions :
Diviser | Exemples |
---|---|
'test' | 15 000 |
'train' | 70 000 |
'validation' | 15 000 |
- Structure des fonctionnalités :
FeaturesDict({
'file_name': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'objects': Sequence({
'3d_coords': Tensor(shape=(3,), dtype=float32),
'color': ClassLabel(shape=(), dtype=int64, num_classes=8),
'material': ClassLabel(shape=(), dtype=int64, num_classes=2),
'pixel_coords': Tensor(shape=(3,), dtype=float32),
'rotation': float32,
'shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
'size': ClassLabel(shape=(), dtype=int64, num_classes=2),
}),
'question_answer': Sequence({
'answer': Text(shape=(), dtype=string),
'question': Text(shape=(), dtype=string),
}),
})
- Documentation des fonctionnalités :
Fonctionnalité | Classe | Forme | Type D | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
nom de fichier | Texte | chaîne | ||
image | Image | (Aucun, Aucun, 3) | uint8 | |
objets | Séquence | |||
objets/3d_coords | Tenseur | (3,) | flotteur32 | |
objets/couleur | Étiquette de classe | int64 | ||
objets/matériel | Étiquette de classe | int64 | ||
objets/pixel_coords | Tenseur | (3,) | flotteur32 | |
objets/rotation | Tenseur | flotteur32 | ||
objets/forme | Étiquette de classe | int64 | ||
objets/taille | Étiquette de classe | int64 | ||
Question Réponse | Séquence | |||
question_réponse/réponse | Texte | chaîne | ||
question_réponse/question | Texte | chaîne |
Clés supervisées (Voir doc
as_supervised
) :None
Figure ( tfds.show_examples ) :
- Exemples ( tfds.as_dataframe ) :
- Citation :
@inproceedings{johnson2017clevr,
title={ {CLEVR}: A diagnostic dataset for compositional language and elementary visual reasoning},
author={Johnson, Justin and Hariharan, Bharath and van der Maaten, Laurens and Fei-Fei, Li and Lawrence Zitnick, C and Girshick, Ross},
booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
year={2017}
}