open_images_v4

Hình ảnh Mở là tập dữ liệu gồm ~ 9 triệu hình ảnh đã được chú thích bằng nhãn cấp hình ảnh và hộp giới hạn đối tượng.

Tập hợp huấn luyện của V4 chứa các hộp giới hạn 14,6M cho 600 lớp đối tượng trên 1,74M hình ảnh, khiến nó trở thành tập dữ liệu lớn nhất hiện có với các chú thích vị trí đối tượng. Các hộp phần lớn được vẽ thủ công bởi các nhà chú giải chuyên nghiệp để đảm bảo độ chính xác và nhất quán. Các hình ảnh rất đa dạng và thường chứa các cảnh phức tạp với một số đối tượng (trung bình 8,4 cho mỗi hình ảnh). Hơn nữa, tập dữ liệu được chú thích bằng các nhãn cấp hình ảnh trải dài hàng nghìn lớp.

Tách ra Các ví dụ
'test' 125.436
'train' 1.743.042
'validation' 41.620
  • Cấu trúc tính năng :
FeaturesDict({
    'bobjects': Sequence({
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'is_depiction': tf.int8,
        'is_group_of': tf.int8,
        'is_inside': tf.int8,
        'is_occluded': tf.int8,
        'is_truncated': tf.int8,
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=601),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/filename': Text(shape=(), dtype=tf.string),
    'objects': Sequence({
        'confidence': tf.int32,
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=19995),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    }),
    'objects_trainable': Sequence({
        'confidence': tf.int32,
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=7186),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Loại Sự mô tả
Các tính năng
bobjects Sự phối hợp
bobjects / bbox BBoxFeature (4,) tf.float32
bobjects / is_depiction Tensor tf.int8
bobjects / is_group_of Tensor tf.int8
bobjects / is_inside Tensor tf.int8
bobjects / is_occluded Tensor tf.int8
bobjects / is_truncated Tensor tf.int8
bobjects / nhãn ClassLabel tf.int64
bobjects / nguồn ClassLabel tf.int64
hình ảnh Hình ảnh (Không có, Không có, 3) tf.uint8
hình ảnh / tên tệp Chữ tf.string
các đối tượng Sự phối hợp
đối tượng / sự tự tin Tensor tf.int32
đối tượng / nhãn ClassLabel tf.int64
đối tượng / nguồn ClassLabel tf.int64
object_trainable Sự phối hợp
object_trainable / trust Tensor tf.int32
object_trainable / label ClassLabel tf.int64
object_trainable / source ClassLabel tf.int64
@article{OpenImages,
  author = {Alina Kuznetsova and
            Hassan Rom and
            Neil Alldrin and
            Jasper Uijlings and
            Ivan Krasin and
            Jordi Pont-Tuset and
            Shahab Kamali and
            Stefan Popov and
            Matteo Malloci and
            Tom Duerig and
            Vittorio Ferrari},
  title = {The Open Images Dataset V4: Unified image classification,
           object detection, and visual relationship detection at scale},
  year = {2018},
  journal = {arXiv:1811.00982}
}
@article{OpenImages2,
  author = {Krasin, Ivan and
            Duerig, Tom and
            Alldrin, Neil and
            Ferrari, Vittorio
            and Abu-El-Haija, Sami and
            Kuznetsova, Alina and
            Rom, Hassan and
            Uijlings, Jasper and
            Popov, Stefan and
            Kamali, Shahab and
            Malloci, Matteo and
            Pont-Tuset, Jordi and
            Veit, Andreas and
            Belongie, Serge and
            Gomes, Victor and
            Gupta, Abhinav and
            Sun, Chen and
            Chechik, Gal and
            Cai, David and
            Feng, Zheyun and
            Narayanan, Dhyanesh and
            Murphy, Kevin},
  title = {OpenImages: A public dataset for large-scale multi-label and
           multi-class image classification.},
  journal = {Dataset available from
             https://storage.googleapis.com/openimages/web/index.html},
  year={2017}
}

open_images_v4 / original (cấu hình mặc định)

  • Mô tả cấu hình : Hình ảnh ở độ phân giải và chất lượng gốc.

open_images_v4 / 300k

  • Mô tả cấu hình : Hình ảnh có khoảng 300.000 pixel, ở chất lượng 72 JPEG.

open_images_v4 / 200k

  • Mô tả cấu hình : Hình ảnh có khoảng 200.000 pixel, ở chất lượng 72 JPEG.