coco_captions

  • Descrição :

COCO é um conjunto de dados de detecção, segmentação e legenda de objetos em grande escala. Esta versão contém imagens, caixas delimitadoras, rótulos e legendas do COCO 2014, divididos nos subconjuntos definidos por Karpathy e Li (2015). Isso efetivamente divide os dados de validação originais do COCO 2014 em novos conjuntos de validação e teste de 5.000 imagens, além de um conjunto "restval" contendo as aproximadamente 30 mil imagens restantes. Todas as divisões possuem anotações de legenda.

Dividir Exemplos
'restval' 30.504
'test' 5.000
'train' 82.783
'val' 5.000
  • Estrutura de recursos :
FeaturesDict({
    'captions': Sequence({
        'id': int64,
        'text': string,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'is_crowd': bool,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
    }),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
legendas Seqüência
legendas/id Tensor int64
legendas/texto Tensor corda
imagem Imagem (Nenhum, Nenhum, 3) uint8
imagem/nome do arquivo Texto corda
imagem/id Tensor int64
objetos Seqüência
objetos/área Tensor int64
objetos/bbox BBoxFeature (4,) float32
objetos/id Tensor int64
objetos/is_crowd Tensor bool
objetos/rótulo ClassLabel int64

Visualização

  • Citação :
@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    = {Tsung{-}Yi Lin and
               Michael Maire and
               Serge J. Belongie and
               Lubomir D. Bourdev and
               Ross B. Girshick and
               James Hays and
               Pietro Perona and
               Deva Ramanan and
               Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions/2014 (configuração padrão)