coco_captions

  • Tanım :

COCO, büyük ölçekli bir nesne algılama, segmentasyon ve resim yazısı veri kümesidir. Bu sürüm, Karpathy ve Li (2015) tarafından tanımlanan alt kümelere ayrılmış, COCO 2014'ten görüntüler, sınırlayıcı kutular, etiketler ve başlıklar içerir. Bu, orijinal COCO 2014 doğrulama verilerini yeni 5000 görüntülü doğrulama ve test kümelerine ve ayrıca kalan ~30 bin görüntüyü içeren bir "dinlenme" kümesine etkili bir şekilde böler. Tüm bölmelerin altyazı ek açıklamaları vardır.

Bölmek Örnekler
'restval' 30.504
'test' 5.000
'train' 82.783
'val' 5.000
  • Özellik yapısı :
FeaturesDict({
   
'captions': Sequence({
       
'id': int64,
       
'text': string,
   
}),
   
'image': Image(shape=(None, None, 3), dtype=uint8),
   
'image/filename': Text(shape=(), dtype=string),
   
'image/id': int64,
   
'objects': Sequence({
       
'area': int64,
       
'bbox': BBoxFeature(shape=(4,), dtype=float32),
       
'id': int64,
       
'is_crowd': bool,
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
   
}),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
altyazılar Sekans
altyazı/kimlik Tensör int64
başlıklar/metin Tensör sicim
resim Resim (Yok, Yok, 3) uint8
resim/dosya adı Metin sicim
resim/kimlik Tensör int64
nesneler Sekans
nesneler/alan Tensör int64
nesneler/bbox BBoxÖzelliği (4,) kayan nokta32
nesneler/kimlik Tensör int64
nesneler/is_crowd Tensör bool
nesneler/etiket SınıfEtiketi int64

Görselleştirme

  • Alıntı :
@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    
= {Tsung{-}Yi Lin and
               
Michael Maire and
               
Serge J. Belongie and
               
Lubomir D. Bourdev and
               
Ross B. Girshick and
               
James Hays and
               
Pietro Perona and
               
Deva Ramanan and
               
Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions/2014 (varsayılan yapılandırma)