coco_captions

COCO là tập dữ liệu phát hiện, phân đoạn và tạo phụ đề đối tượng quy mô lớn. Phiên bản này chứa hình ảnh, hộp bao, nhãn và chú thích từ COCO 2014, được chia thành các tập con được xác định bởi Karpathy và Li (2015). Điều này phân chia hiệu quả dữ liệu xác thực COCO 2014 ban đầu thành các bộ kiểm tra và xác thực 5000 hình ảnh mới, cùng với một bộ "xác thực lại" chứa ~ 30 nghìn hình ảnh còn lại. Tất cả các phần tách đều có chú thích chú thích.

  • Mô tả cấu hình : Phiên bản này chứa hình ảnh, hộp giới hạn và nhãn cho phiên bản 2014.

  • Trang chủ : http://cocodataset.org/#home

  • Mã nguồn : tfds.object_detection.CocoCaptions

  • Các phiên bản :

    • 1.1.0 (mặc định): Không có ghi chú phát hành.
  • Kích thước tải xuống : 37.61 GiB

  • Kích thước tập dữ liệu : 18.83 GiB

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Tách :

Tách ra Các ví dụ
'restval' 30,504
'test' 5.000
'train' 82.783
'val' 5.000
  • Cấu trúc tính năng :
FeaturesDict({
    'captions': Sequence({
        'id': tf.int64,
        'text': tf.string,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/filename': Text(shape=(), dtype=tf.string),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'is_crowd': tf.bool,
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=80),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
chú thích Sự phối hợp
chú thích / id Tensor tf.int64
chú thích / văn bản Tensor tf.string
hình ảnh Hình ảnh (Không có, Không có, 3) tf.uint8
hình ảnh / tên tệp Chữ tf.string
hình ảnh / id Tensor tf.int64
các đối tượng Sự phối hợp
đối tượng / khu vực Tensor tf.int64
đối tượng / bbox BBoxFeature (4,) tf.float32
đối tượng / id Tensor tf.int64
đối tượng / is_crowd Tensor tf.bool
đối tượng / nhãn ClassLabel tf.int64
@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    = {Tsung{-}Yi Lin and
               Michael Maire and
               Serge J. Belongie and
               Lubomir D. Bourdev and
               Ross B. Girshick and
               James Hays and
               Pietro Perona and
               Deva Ramanan and
               Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions / 2014 (cấu hình mặc định)