open_images_v4

  • وصف :

Open Images عبارة عن مجموعة بيانات مكونة من حوالي 9 ملايين صورة تم التعليق عليها باستخدام تسميات على مستوى الصورة ومربعات محيطة بالكائنات.

تحتوي مجموعة التدريب V4 على 14.6 مليون مربع محيط لـ 600 فئة كائن على 1.74 مليون صورة، مما يجعلها أكبر مجموعة بيانات موجودة مع تعليقات توضيحية لموقع الكائن. تم رسم الصناديق يدويًا إلى حد كبير بواسطة شروحيين محترفين لضمان الدقة والاتساق. الصور متنوعة جدًا وغالبًا ما تحتوي على مشاهد معقدة تحتوي على عدة كائنات (8.4 لكل صورة في المتوسط). علاوة على ذلك، يتم شرح مجموعة البيانات باستخدام تسميات على مستوى الصورة تغطي آلاف الفئات.

ينقسم أمثلة
'test' 125,436
'train' 1,743,042
'validation' 41,620
  • هيكل الميزة :
FeaturesDict({
   
'bobjects': Sequence({
       
'bbox': BBoxFeature(shape=(4,), dtype=float32),
       
'is_depiction': int8,
       
'is_group_of': int8,
       
'is_inside': int8,
       
'is_occluded': int8,
       
'is_truncated': int8,
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=601),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
   
}),
   
'image': Image(shape=(None, None, 3), dtype=uint8),
   
'image/filename': Text(shape=(), dtype=string),
   
'objects': Sequence({
       
'confidence': int32,
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=19995),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
   
}),
   
'objects_trainable': Sequence({
       
'confidence': int32,
       
'label': ClassLabel(shape=(), dtype=int64, num_classes=7186),
       
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
   
}),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
كائنات تسلسل
كائنات/بي بوكس ميزة BBox (4،) float32
bobjects/is_depiction الموتر كثافة العمليات8
bobjects/is_group_of الموتر كثافة العمليات8
bobjects/is_inside الموتر كثافة العمليات8
bobjects/is_occluded الموتر كثافة العمليات8
bobjects/is_truncated الموتر كثافة العمليات8
الكائنات/التسمية ClassLabel int64
الكائنات/المصدر ClassLabel int64
صورة صورة (لا شيء، لا شيء، 3) uint8
الصورة/اسم الملف نص خيط
أشياء تسلسل
الأشياء/الثقة الموتر int32
الكائنات/التسمية ClassLabel int64
الكائنات/المصدر ClassLabel int64
object_trainable تسلسل
objects_trainable/confidence الموتر int32
objects_trainable/label ClassLabel int64
object_trainable/source ClassLabel int64
  • المفاتيح الخاضعة للإشراف (راجع as_supervised doc ): None

  • الاقتباس :

@article{OpenImages,
  author
= {Alina Kuznetsova and
           
Hassan Rom and
           
Neil Alldrin and
           
Jasper Uijlings and
           
Ivan Krasin and
           
Jordi Pont-Tuset and
           
Shahab Kamali and
           
Stefan Popov and
           
Matteo Malloci and
           
Tom Duerig and
           
Vittorio Ferrari},
  title
= {The Open Images Dataset V4: Unified image classification,
           
object detection, and visual relationship detection at scale},
  year
= {2018},
  journal
= {arXiv:1811.00982}
}
@article{OpenImages2,
  author
= {Krasin, Ivan and
           
Duerig, Tom and
           
Alldrin, Neil and
           
Ferrari, Vittorio
           
and Abu-El-Haija, Sami and
           
Kuznetsova, Alina and
           
Rom, Hassan and
           
Uijlings, Jasper and
           
Popov, Stefan and
           
Kamali, Shahab and
           
Malloci, Matteo and
           
Pont-Tuset, Jordi and
           
Veit, Andreas and
           
Belongie, Serge and
           
Gomes, Victor and
           
Gupta, Abhinav and
           
Sun, Chen and
           
Chechik, Gal and
           
Cai, David and
           
Feng, Zheyun and
           
Narayanan, Dhyanesh and
           
Murphy, Kevin},
  title
= {OpenImages: A public dataset for large-scale multi-label and
           multi
-class image classification.},
  journal
= {Dataset available from
             https
://storage.googleapis.com/openimages/web/index.html},
  year
={2017}
}

open_images_v4/original (التكوين الافتراضي)

  • وصف التكوين : الصور بالدقة والجودة الأصلية.

  • حجم مجموعة البيانات : 562.42 GiB

  • الشكل ( tfds.show_examples ):

التصور

open_images_v4/300k

  • وصف التكوين : تحتوي الصور على ما يقرب من 300000 بكسل، بجودة 72 JPEG.

  • حجم مجموعة البيانات : 81.92 GiB

  • الشكل ( tfds.show_examples ):

التصور

open_images_v4/200k

  • وصف التكوين : تحتوي الصور على ما يقرب من 200000 بكسل، بجودة 72 JPEG.

  • حجم مجموعة البيانات : 60.70 GiB

  • الشكل ( tfds.show_examples ):

التصور