open_images_v4

  • Sự miêu tả :

Hình ảnh mở là tập dữ liệu gồm ~ 9 triệu hình ảnh đã được chú thích bằng nhãn cấp độ hình ảnh và hộp giới hạn đối tượng.

Tập huấn luyện của V4 chứa 14,6M hộp giới hạn cho 600 lớp đối tượng trên 1,74M hình ảnh, khiến nó trở thành tập dữ liệu lớn nhất hiện có với chú thích vị trí đối tượng. Các hộp phần lớn được vẽ thủ công bởi các nhà chú thích chuyên nghiệp để đảm bảo tính chính xác và nhất quán. Các hình ảnh rất đa dạng và thường chứa các cảnh phức tạp với nhiều đối tượng (trung bình 8,4 trên mỗi ảnh). Hơn nữa, tập dữ liệu được chú thích bằng nhãn cấp độ hình ảnh trải rộng trên hàng nghìn lớp.

Tách ra Ví dụ
'test' 125.436
'train' 1.743.042
'validation' 41.620
  • Cấu trúc tính năng :
FeaturesDict({
   
'bobjects': Sequence({
       
'bbox': BBoxFeature(shape=(4,), dtype=float32),
       
'is_depiction': int8,
       
'is_group_of': int8,
       
'is_inside': int8,
       
'is_occluded': int8,
       
'is_truncated': int8,
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=601),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
   
}),
   
'image': Image(shape=(None, None, 3), dtype=uint8),
   
'image/filename': Text(shape=(), dtype=string),
   
'objects': Sequence({
       
'confidence': int32,
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=19995),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
   
}),
   
'objects_trainable': Sequence({
       
'confidence': int32,
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=7186),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
   
}),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
đồ vật Sự liên tiếp
bobjects/bbox Tính năng BBox (4,) phao32
bobjects/is_description Tenxơ int8
đối tượng/is_group_of Tenxơ int8
bobjects/is_inside Tenxơ int8
đối tượng/is_occluded Tenxơ int8
bobjects/is_truncated Tenxơ int8
đối tượng/nhãn Nhãn lớp int64
đối tượng/nguồn Nhãn lớp int64
hình ảnh Hình ảnh (Không, Không, 3) uint8
hình ảnh/tên tập tin Chữ sợi dây
các đối tượng Sự liên tiếp
đồ vật/sự tự tin Tenxơ int32
đồ vật/nhãn Nhãn lớp int64
đối tượng/nguồn Nhãn lớp int64
đối tượng_có thể đào tạo được Sự liên tiếp
object_có thể đào tạo/tự tin Tenxơ int32
object_trainable/nhãn Nhãn lớp int64
object_trainable/nguồn Nhãn lớp int64
@article{OpenImages,
  author
= {Alina Kuznetsova and
           
Hassan Rom and
           
Neil Alldrin and
           
Jasper Uijlings and
           
Ivan Krasin and
           
Jordi Pont-Tuset and
           
Shahab Kamali and
           
Stefan Popov and
           
Matteo Malloci and
           
Tom Duerig and
           
Vittorio Ferrari},
  title
= {The Open Images Dataset V4: Unified image classification,
           
object detection, and visual relationship detection at scale},
  year
= {2018},
  journal
= {arXiv:1811.00982}
}
@article{OpenImages2,
  author
= {Krasin, Ivan and
           
Duerig, Tom and
           
Alldrin, Neil and
           
Ferrari, Vittorio
           
and Abu-El-Haija, Sami and
           
Kuznetsova, Alina and
           
Rom, Hassan and
           
Uijlings, Jasper and
           
Popov, Stefan and
           
Kamali, Shahab and
           
Malloci, Matteo and
           
Pont-Tuset, Jordi and
           
Veit, Andreas and
           
Belongie, Serge and
           
Gomes, Victor and
           
Gupta, Abhinav and
           
Sun, Chen and
           
Chechik, Gal and
           
Cai, David and
           
Feng, Zheyun and
           
Narayanan, Dhyanesh and
           
Murphy, Kevin},
  title
= {OpenImages: A public dataset for large-scale multi-label and
           multi
-class image classification.},
  journal
= {Dataset available from
             https
://storage.googleapis.com/openimages/web/index.html},
  year
={2017}
}

open_images_v4/origin (cấu hình mặc định)

  • Mô tả cấu hình : Hình ảnh ở độ phân giải và chất lượng gốc.

  • Kích thước tập dữ liệu : 562.42 GiB

  • Hình ( tfds.show_examples ):

Hình dung

open_images_v4/300k

  • Mô tả cấu hình : Hình ảnh có khoảng 300.000 pixel, chất lượng 72 JPEG.

  • Kích thước tập dữ liệu : 81.92 GiB

  • Hình ( tfds.show_examples ):

Hình dung

open_images_v4/200k

  • Mô tả cấu hình : Hình ảnh có khoảng 200.000 pixel, chất lượng 72 JPEG.

  • Kích thước tập dữ liệu : 60.70 GiB

  • Hình ( tfds.show_examples ):

Hình dung