تقسیمبندی تصویر فرآیند تقسیمبندی یک تصویر دیجیتال به بخشهای متعدد (مجموعهای از پیکسلها، که به عنوان اشیاء تصویر نیز شناخته میشوند) است. هدف تقسیمبندی سادهسازی و/یا تغییر نمایش تصویر به چیزی است که معنادارتر و تحلیل آن آسانتر باشد.
تصویر زیر خروجی مدل تقسیم بندی تصویر در اندروید را نشان می دهد. این مدل یک ماسک بر روی اشیاء هدف با دقت بالا ایجاد می کند.
شروع کنید
اگر با TensorFlow Lite تازه کار هستید و با Android یا iOS کار می کنید، توصیه می شود برنامه های کاربردی مثال زیر را که می توانند به شما در شروع کار کمک کنند، بررسی کنید.
میتوانید از API خارج از جعبه از TensorFlow Lite Task Library استفاده کنید تا مدلهای تقسیمبندی تصویر را تنها در چند خط کد یکپارچه کنید. همچنین می توانید مدل را با استفاده از TensorFlow Lite Interpreter Java API ادغام کنید.
مثال اندروید زیر اجرای هر دو روش را به ترتیب به عنوان lib_task_api و lib_interpreter نشان می دهد.
اگر از پلتفرمی غیر از Android یا iOS استفاده میکنید، یا قبلاً با APIهای TensorFlow Lite آشنا هستید، میتوانید مدل تقسیمبندی تصویر شروع ما را دانلود کنید.
توضیحات مدل
DeepLab یک مدل یادگیری عمیق پیشرفته برای تقسیمبندی تصویر معنایی است، که در آن هدف تخصیص برچسبهای معنایی (مانند شخص، سگ، گربه) به هر پیکسل در تصویر ورودی است.
چگونه کار می کند
تقسیم بندی تصویر معنایی پیش بینی می کند که آیا هر پیکسل از یک تصویر با یک کلاس خاص مرتبط است یا خیر. این بر خلاف تشخیص اشیا است که اشیاء را در مناطق مستطیلی تشخیص می دهد و طبقه بندی تصویر که تصویر کلی را طبقه بندی می کند.
پیاده سازی فعلی شامل ویژگی های زیر است:
- DeepLabv1: ما از پیچیدگی آتروس برای کنترل صریح وضوحی که در آن پاسخ های ویژگی در شبکه های عصبی پیچیده عمیق محاسبه می شود، استفاده می کنیم.
- DeepLabv2: ما از ادغام هرم فضایی آتروس (ASPP) برای تقسیم بندی قوی اشیاء در مقیاس های چندگانه با فیلترهایی با نرخ نمونه برداری های متعدد و میدان های دید موثر استفاده می کنیم.
- DeepLabv3: ما ماژول ASPP را با ویژگی سطح تصویر [5، 6] تقویت می کنیم تا اطلاعات برد بلندتری را ضبط کنیم. ما همچنین پارامترهای نرمال سازی دسته ای [7] را برای تسهیل آموزش لحاظ می کنیم. به طور خاص، ما برای استخراج ویژگیهای خروجی در گامهای خروجی مختلف در طول آموزش و ارزیابی، از پیچش آتروس استفاده میکنیم، که به طور موثر BN را در گام خروجی = 16 قادر میسازد و در حین ارزیابی عملکرد بالایی را در گام خروجی = 8 به دست میآورد.
- DeepLabv3+: DeepLabv3 را گسترش میدهیم تا یک ماژول رمزگشای ساده و در عین حال مؤثر را برای اصلاح نتایج تقسیمبندی بهویژه در امتداد مرزهای شیء بگنجانیم. علاوه بر این، در این ساختار رمزگذار-رمزگشا میتوان به طور دلخواه وضوح ویژگیهای رمزگذار استخراجشده را با پیچیدگی آزاردهنده به دقت و زمان اجرا کنترل کرد.
معیارهای عملکرد
اعداد معیار عملکرد با ابزار توضیح داده شده در اینجا تولید می شوند.
نام مدل | اندازه مدل | دستگاه | پردازنده گرافیکی | CPU |
---|---|---|---|---|
Deeplab نسخه 3 | 2.7 مگابایت | پیکسل 3 (اندروید 10) | 16 میلیثانیه | 37 میلیثانیه* |
پیکسل 4 (اندروید 10) | 20 میلیثانیه | 23 میلیثانیه* | ||
آیفون XS (iOS 12.4.1) | 16 میلیثانیه | 25 میلیثانیه** |
* 4 نخ استفاده شده است.
** 2 رشته مورد استفاده در آیفون برای بهترین نتیجه عملکرد.