कोको_कैप्शन

  • विवरण :

COCO एक बड़े पैमाने पर ऑब्जेक्ट डिटेक्शन, सेगमेंटेशन और कैप्शनिंग डेटासेट है। इस संस्करण में COCO 2014 की छवियां, बाउंडिंग बॉक्स, लेबल और कैप्शन शामिल हैं, जो कारपैथी और ली (2015) द्वारा परिभाषित सबसेट में विभाजित हैं। यह प्रभावी रूप से मूल COCO 2014 सत्यापन डेटा को नए 5000-छवि सत्यापन और परीक्षण सेट में विभाजित करता है, साथ ही शेष ~ 30k छवियों वाले "रेस्टवल" सेट को भी विभाजित करता है। सभी स्प्लिट्स में कैप्शन एनोटेशन होते हैं।

विभाजित करना उदाहरण
'restval' 30,504
'test' 5,000
'train' 82,783
'val' 5,000
  • फ़ीचर संरचना :
FeaturesDict({
   
'captions': Sequence({
       
'id': int64,
       
'text': string,
   
}),
   
'image': Image(shape=(None, None, 3), dtype=uint8),
   
'image/filename': Text(shape=(), dtype=string),
   
'image/id': int64,
   
'objects': Sequence({
       
'area': int64,
       
'bbox': BBoxFeature(shape=(4,), dtype=float32),
       
'id': int64,
       
'is_crowd': bool,
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
   
}),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीप्रकार विवरण
फीचर्सडिक्ट
कैप्शन अनुक्रम
कैप्शन/आईडी टेन्सर int64
कैप्शन/पाठ टेन्सर डोरी
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8
छवि/फ़ाइल नाम मूलपाठ डोरी
छवि/आईडी टेन्सर int64
वस्तुओं अनुक्रम
वस्तुएं/क्षेत्र टेन्सर int64
ऑब्जेक्ट/बीबॉक्स बीबॉक्सफ़ीचर (4,) फ्लोट32
ऑब्जेक्ट/आईडी टेन्सर int64
ऑब्जेक्ट/is_crowd टेन्सर बूल
ऑब्जेक्ट/लेबल क्लास लेबल int64

VISUALIZATION

  • उद्धरण :
@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    
= {Tsung{-}Yi Lin and
               
Michael Maire and
               
Serge J. Belongie and
               
Lubomir D. Bourdev and
               
Ross B. Girshick and
               
James Hays and
               
Pietro Perona and
               
Deva Ramanan and
               
Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions/2014 (डिफ़ॉल्ट कॉन्फ़िगरेशन)