coco_captions

COCO là một bộ dữ liệu phát hiện đối tượng, phân đoạn và phụ đề quy mô lớn. Phiên bản này chứa hình ảnh, hộp giới hạn, nhãn và chú thích từ COCO 2014, được chia thành các tập hợp con được xác định bởi Karpathy và Li (2015). Điều này phân chia hiệu quả dữ liệu xác thực COCO 2014 ban đầu thành các bộ kiểm tra và xác thực 5000 hình ảnh mới, cộng với một bộ "restval" chứa ~30 nghìn hình ảnh còn lại. Tất cả các phần tách đều có chú thích chú thích.

Tách ra ví dụ
'restval' 30,504
'test' 5.000
'train' 82,783
'val' 5.000
  • Cấu trúc tính năng :
FeaturesDict({
    'captions': Sequence({
        'id': int64,
        'text': string,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'is_crowd': bool,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
phụ đề Sự phối hợp
chú thích/id tenxơ int64
chú thích/văn bản tenxơ sợi dây
hình ảnh Hình ảnh (Không, Không có, 3) uint8
hình ảnh/tên tập tin Chữ sợi dây
hình ảnh/id tenxơ int64
các đối tượng Sự phối hợp
đồ vật/khu vực tenxơ int64
đối tượng/bbox Tính năng BBox (4,) phao32
đối tượng/id tenxơ int64
đối tượng/là_đám đông tenxơ bool
đối tượng/nhãn LớpNhãn int64

Hình dung

  • trích dẫn :
@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    = {Tsung{-}Yi Lin and
               Michael Maire and
               Serge J. Belongie and
               Lubomir D. Bourdev and
               Ross B. Girshick and
               James Hays and
               Pietro Perona and
               Deva Ramanan and
               Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions/2014 (cấu hình mặc định)