Visualisation : Explorer dans Know Your Data
Descriptif :
COCO est un ensemble de données de détection, de segmentation et de sous-titrage d'objets à grande échelle. Cette version contient des images, des cadres de délimitation, des étiquettes et des légendes de COCO 2014, divisés en sous-ensembles définis par Karpathy et Li (2015). Cela divise efficacement les données de validation COCO 2014 d'origine en de nouveaux ensembles de validation et de test de 5000 images, plus un ensemble "restval" contenant les ~30 000 images restantes. Toutes les divisions ont des annotations de légende.
Documentation complémentaire : Explorer sur Papers With Code
Description de la configuration : Cette version contient des images, des cadres de délimitation et des étiquettes pour la version 2014.
Page d' accueil : http://cocodataset.org/#home
Code source :
tfds.object_detection.CocoCaptions
Versions :
-
1.1.0
(par défaut) : aucune note de version.
-
Taille du téléchargement :
37.61 GiB
Taille du jeu de données :
18.83 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'restval' | 30 504 |
'test' | 5 000 |
'train' | 82 783 |
'val' | 5 000 |
- Structure des fonctionnalités :
FeaturesDict({
'captions': Sequence({
'id': int64,
'text': string,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/filename': Text(shape=(), dtype=string),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'is_crowd': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
}),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
légendes | Séquence | |||
légendes/identifiant | Tenseur | int64 | ||
légendes/texte | Tenseur | chaîne de caractères | ||
image | Image | (Aucun, Aucun, 3) | uint8 | |
image/nom de fichier | Texte | chaîne de caractères | ||
image/identifiant | Tenseur | int64 | ||
objets | Séquence | |||
objets/zone | Tenseur | int64 | ||
objets/bbox | BBoxFeature | (4,) | float32 | |
objets/identifiant | Tenseur | int64 | ||
objets/is_crowd | Tenseur | bourdonner | ||
objets/étiquette | Étiquette de classe | int64 |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
- Citation :
@article{DBLP:journals/corr/LinMBHPRDZ14,
author = {Tsung{-}Yi Lin and
Michael Maire and
Serge J. Belongie and
Lubomir D. Bourdev and
Ross B. Girshick and
James Hays and
Pietro Perona and
Deva Ramanan and
Piotr Doll{'{a} }r and
C. Lawrence Zitnick},
title = {Microsoft {COCO:} Common Objects in Context},
journal = {CoRR},
volume = {abs/1405.0312},
year = {2014},
url = {http://arxiv.org/abs/1405.0312},
archivePrefix = {arXiv},
eprint = {1405.0312},
timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
author = {Andrej Karpathy and
Fei{-}Fei Li},
title = {Deep visual-semantic alignments for generating image
descriptions},
booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
{CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
pages = {3128--3137},
publisher = { {IEEE} Computer Society},
year = {2015},
url = {https://doi.org/10.1109/CVPR.2015.7298932},
doi = {10.1109/CVPR.2015.7298932},
timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
biburl = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}