تقسیم بندی

تقسیم‌بندی تصویر فرآیند تقسیم‌بندی یک تصویر دیجیتال به بخش‌های متعدد (مجموعه‌ای از پیکسل‌ها، که به عنوان اشیاء تصویر نیز شناخته می‌شوند) است. هدف تقسیم‌بندی ساده‌سازی و/یا تغییر نمایش تصویر به چیزی است که معنادارتر و تحلیل آن آسان‌تر باشد.

تصویر زیر خروجی مدل تقسیم بندی تصویر در اندروید را نشان می دهد. این مدل یک ماسک بر روی اشیاء هدف با دقت بالا ایجاد می کند.

شروع کنید

اگر با TensorFlow Lite تازه کار هستید و با Android یا iOS کار می کنید، توصیه می شود برنامه های کاربردی مثال زیر را که می توانند به شما در شروع کار کمک کنند، بررسی کنید.

می‌توانید از API خارج از جعبه از TensorFlow Lite Task Library استفاده کنید تا مدل‌های تقسیم‌بندی تصویر را تنها در چند خط کد یکپارچه کنید. همچنین می توانید مدل را با استفاده از TensorFlow Lite Interpreter Java API ادغام کنید.

مثال اندروید زیر اجرای هر دو روش را به ترتیب به عنوان lib_task_api و lib_interpreter نشان می دهد.

مشاهده نمونه اندروید

نمونه iOS را مشاهده کنید

اگر از پلتفرمی غیر از Android یا iOS استفاده می‌کنید، یا قبلاً با APIهای TensorFlow Lite آشنا هستید، می‌توانید مدل تقسیم‌بندی تصویر شروع ما را دانلود کنید.

دانلود مدل استارتر

توضیحات مدل

DeepLab یک مدل یادگیری عمیق پیشرفته برای تقسیم‌بندی تصویر معنایی است، که در آن هدف تخصیص برچسب‌های معنایی (مانند شخص، سگ، گربه) به هر پیکسل در تصویر ورودی است.

چگونه کار می کند

تقسیم بندی تصویر معنایی پیش بینی می کند که آیا هر پیکسل از یک تصویر با یک کلاس خاص مرتبط است یا خیر. این بر خلاف تشخیص اشیا است که اشیاء را در مناطق مستطیلی تشخیص می دهد و طبقه بندی تصویر که تصویر کلی را طبقه بندی می کند.

پیاده سازی فعلی شامل ویژگی های زیر است:

  1. DeepLabv1: ما از پیچیدگی آتروس برای کنترل صریح وضوحی که در آن پاسخ های ویژگی در شبکه های عصبی پیچیده عمیق محاسبه می شود، استفاده می کنیم.
  2. DeepLabv2: ما از ادغام هرم فضایی آتروس (ASPP) برای تقسیم بندی قوی اشیاء در مقیاس های چندگانه با فیلترهایی با نرخ نمونه برداری های متعدد و میدان های دید موثر استفاده می کنیم.
  3. DeepLabv3: ما ماژول ASPP را با ویژگی سطح تصویر [5، 6] تقویت می کنیم تا اطلاعات برد بلندتری را ضبط کنیم. ما همچنین پارامترهای نرمال سازی دسته ای [7] را برای تسهیل آموزش لحاظ می کنیم. به طور خاص، ما برای استخراج ویژگی‌های خروجی در گام‌های خروجی مختلف در طول آموزش و ارزیابی، از پیچش آتروس استفاده می‌کنیم، که به طور موثر BN را در گام خروجی = 16 قادر می‌سازد و در حین ارزیابی عملکرد بالایی را در گام خروجی = 8 به دست می‌آورد.
  4. DeepLabv3+: DeepLabv3 را گسترش می‌دهیم تا یک ماژول رمزگشای ساده و در عین حال مؤثر را برای اصلاح نتایج تقسیم‌بندی به‌ویژه در امتداد مرزهای شیء بگنجانیم. علاوه بر این، در این ساختار رمزگذار-رمزگشا می‌توان به طور دلخواه وضوح ویژگی‌های رمزگذار استخراج‌شده را با پیچیدگی آزاردهنده به دقت و زمان اجرا کنترل کرد.

معیارهای عملکرد

اعداد معیار عملکرد با ابزار توضیح داده شده در اینجا تولید می شوند.

نام مدل اندازه مدل دستگاه پردازنده گرافیکی CPU
Deeplab نسخه 3 2.7 مگابایت پیکسل 3 (اندروید 10) 16 میلی‌ثانیه 37 میلی‌ثانیه*
پیکسل 4 (اندروید 10) 20 میلی‌ثانیه 23 میلی‌ثانیه*
آیفون XS (iOS 12.4.1) 16 میلی‌ثانیه 25 میلی‌ثانیه**

* 4 نخ استفاده شده است.

** 2 رشته مورد استفاده در آیفون برای بهترین نتیجه عملکرد.

مطالعه بیشتر و منابع