- Descriptif :
L'ensemble de données Google RefExp est une collection de descriptions textuelles d'objets dans des images qui s'appuie sur l'ensemble de données MS-COCO accessible au public. Alors que les légendes d'image dans MS-COCO s'appliquent à l'image entière, cet ensemble de données se concentre sur les descriptions textuelles qui permettent d'identifier de manière unique un seul objet ou une seule région dans une image. Voir plus de détails dans cet article : Génération et compréhension de descriptions d'objets non ambiguës.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/mjhucla/Google_Refexp_toolbox
Code source :
tfds.vision_language.gref.Gref
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
Unknown size
Taille du jeu de données :
4.60 GiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Suivez les instructions sur https://github.com/mjhucla/Google_Refexp_toolbox pour télécharger et prétraiter les données dans un format aligné avec COCO. Le répertoire contient 2 fichiers et un dossier :google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
coco_train2014/
Le dossier coco_train2014 contient toutes les images de formation COCO 2014.
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 24 698 |
'validation' | 4 650 |
- Structure des fonctionnalités :
FeaturesDict({
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'referent': Text(shape=(), dtype=string),
'refexp_id': int64,
'tokens': Sequence(Text(shape=(), dtype=string)),
}),
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
image | Image | (Aucun, Aucun, 3) | uint8 | |
image/identifiant | Tenseur | int64 | ||
objets | Séquence | |||
objets/zone | Tenseur | int64 | ||
objets/bbox | BBoxFeature | (4,) | float32 | |
objets/identifiant | Tenseur | int64 | ||
objets/étiquette | Tenseur | int64 | ||
objets/nom_étiquette | Étiquette de classe | int64 | ||
objets/refexp | Séquence | |||
objets/refexp/brut | Texte | chaîne de caractères | ||
objets/refexp/référent | Texte | chaîne de caractères | ||
objets/refexp/refexp_id | Tenseur | int64 | ||
objets/refexp/jetons | Séquence (texte) | (Aucun,) | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
- Citation :
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}