- شرح :
Open Images مجموعهای از 9 میلیون تصویر است که با برچسبهای سطح تصویر و جعبههای محدودکننده اشیا حاشیهنویسی شدهاند.
مجموعه آموزشی V4 شامل 14.6M جعبه محدود کننده برای 600 کلاس شی در تصاویر 1.74M است که آن را به بزرگترین مجموعه داده موجود با حاشیه نویسی مکان شی تبدیل می کند. جعبه ها عمدتاً به صورت دستی توسط حاشیه نویسان حرفه ای ترسیم شده اند تا از دقت و سازگاری اطمینان حاصل شود. تصاویر بسیار متنوع هستند و اغلب شامل صحنه های پیچیده با چندین شی هستند (به طور متوسط 8.4 در هر تصویر). علاوه بر این، مجموعه داده با برچسبهای سطح تصویر که هزاران کلاس را در بر میگیرد، حاشیهنویسی میشود.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://storage.googleapis.com/openimages/web/index.html
کد منبع :
tfds.datasets.open_images_v4.Builder
نسخه ها :
-
2.0.0
(پیشفرض): API تقسیم جدید ( https://tensorflow.org/datasets/splits )
-
حجم دانلود :
565.11 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیمات :
شکاف | مثال ها |
---|---|
'test' | 125,436 |
'train' | 1,743,042 |
'validation' | 41620 |
- ساختار ویژگی :
FeaturesDict({
'bobjects': Sequence({
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'is_depiction': int8,
'is_group_of': int8,
'is_inside': int8,
'is_occluded': int8,
'is_truncated': int8,
'label': ClassLabel(shape=(), dtype=int64, num_classes=601),
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/filename': Text(shape=(), dtype=string),
'objects': Sequence({
'confidence': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=19995),
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
}),
'objects_trainable': Sequence({
'confidence': int32,
'label': ClassLabel(shape=(), dtype=int64, num_classes=7186),
'source': ClassLabel(shape=(), dtype=int64, num_classes=6),
}),
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
بابجکت ها | توالی | |||
bobjects/bbox | ویژگی BBox | (4،) | float32 | |
bobjects/is_depiction | تانسور | int8 | ||
bobjects/is_group_of | تانسور | int8 | ||
bobjects/is_inside | تانسور | int8 | ||
bobjects/is_closed | تانسور | int8 | ||
bobjects/is_truncated | تانسور | int8 | ||
bobjects/برچسب | ClassLabel | int64 | ||
bobjects/منبع | ClassLabel | int64 | ||
تصویر | تصویر | (هیچ، هیچ، 3) | uint8 | |
تصویر/نام فایل | متن | رشته | ||
اشیاء | توالی | |||
اشیاء / اعتماد به نفس | تانسور | int32 | ||
اشیاء/برچسب | ClassLabel | int64 | ||
اشیاء/منبع | ClassLabel | int64 | ||
اشیاء_آموزش پذیر | توالی | |||
اشیاء_آموزش پذیر/اطمینان | تانسور | int32 | ||
objects_trainable/label | ClassLabel | int64 | ||
objects_trainable/source | ClassLabel | int64 |
کلیدهای نظارت شده (به
as_supervised
doc مراجعه کنید):None
نقل قول :
@article{OpenImages,
author = {Alina Kuznetsova and
Hassan Rom and
Neil Alldrin and
Jasper Uijlings and
Ivan Krasin and
Jordi Pont-Tuset and
Shahab Kamali and
Stefan Popov and
Matteo Malloci and
Tom Duerig and
Vittorio Ferrari},
title = {The Open Images Dataset V4: Unified image classification,
object detection, and visual relationship detection at scale},
year = {2018},
journal = {arXiv:1811.00982}
}
@article{OpenImages2,
author = {Krasin, Ivan and
Duerig, Tom and
Alldrin, Neil and
Ferrari, Vittorio
and Abu-El-Haija, Sami and
Kuznetsova, Alina and
Rom, Hassan and
Uijlings, Jasper and
Popov, Stefan and
Kamali, Shahab and
Malloci, Matteo and
Pont-Tuset, Jordi and
Veit, Andreas and
Belongie, Serge and
Gomes, Victor and
Gupta, Abhinav and
Sun, Chen and
Chechik, Gal and
Cai, David and
Feng, Zheyun and
Narayanan, Dhyanesh and
Murphy, Kevin},
title = {OpenImages: A public dataset for large-scale multi-label and
multi-class image classification.},
journal = {Dataset available from
https://storage.googleapis.com/openimages/web/index.html},
year={2017}
}
open_images_v4/original (پیکربندی پیشفرض)
توضیحات پیکربندی : تصاویر با وضوح و کیفیت اصلی خود.
حجم مجموعه داده :
562.42 GiB
شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
open_images_v4/300k
توضیحات پیکربندی : تصاویر تقریباً 300000 پیکسل با کیفیت 72 JPEG دارند.
حجم مجموعه داده :
81.92 GiB
شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):
open_images_v4/200k
توضیحات پیکربندی : تصاویر تقریباً 200000 پیکسل با کیفیت 72 JPEG دارند.
حجم مجموعه داده :
60.70 GiB
شکل ( tfds.show_examples ):
- مثالها ( tfds.as_dataframe ):