सेगमेंटेशन

छवि विभाजन एक डिजिटल छवि को कई खंडों (पिक्सेल के सेट, जिन्हें छवि ऑब्जेक्ट भी कहा जाता है) में विभाजित करने की प्रक्रिया है। विभाजन का लक्ष्य किसी छवि के प्रतिनिधित्व को सरल बनाना और/या किसी ऐसी चीज़ में बदलना है जो अधिक सार्थक और विश्लेषण करने में आसान हो।

निम्न छवि एंड्रॉइड पर छवि विभाजन मॉडल का आउटपुट दिखाती है। मॉडल उच्च सटीकता के साथ लक्ष्य वस्तुओं पर एक मुखौटा बनाएगा।

शुरू हो जाओ

यदि आप TensorFlow Lite में नए हैं और Android या iOS के साथ काम कर रहे हैं, तो यह अनुशंसा की जाती है कि आप निम्नलिखित उदाहरण एप्लिकेशन देखें जो आरंभ करने में आपकी सहायता कर सकते हैं।

आप कोड की कुछ पंक्तियों के भीतर छवि विभाजन मॉडल को एकीकृत करने के लिए टेन्सरफ्लो लाइट टास्क लाइब्रेरी से आउट-ऑफ-बॉक्स एपीआई का लाभ उठा सकते हैं। आप TensorFlow Lite Interpreter Java API का उपयोग करके भी मॉडल को एकीकृत कर सकते हैं।

नीचे दिया गया एंड्रॉइड उदाहरण क्रमशः lib_task_api और lib_interpreter दोनों विधियों के कार्यान्वयन को दर्शाता है।

एंड्रॉइड उदाहरण देखें

आईओएस उदाहरण देखें

यदि आप एंड्रॉइड या आईओएस के अलावा किसी अन्य प्लेटफॉर्म का उपयोग कर रहे हैं, या आप पहले से ही टेन्सरफ्लो लाइट एपीआई से परिचित हैं, तो आप हमारे स्टार्टर इमेज सेगमेंटेशन मॉडल को डाउनलोड कर सकते हैं।

स्टार्टर मॉडल डाउनलोड करें

मॉडल वर्णन

डीपलैब सिमेंटिक इमेज सेगमेंटेशन के लिए एक अत्याधुनिक गहन शिक्षण मॉडल है, जहां लक्ष्य इनपुट छवि में प्रत्येक पिक्सेल को सिमेंटिक लेबल (जैसे व्यक्ति, कुत्ता, बिल्ली) निर्दिष्ट करना है।

यह काम किस प्रकार करता है

सिमेंटिक इमेज सेगमेंटेशन भविष्यवाणी करता है कि छवि का प्रत्येक पिक्सेल एक निश्चित वर्ग से जुड़ा है या नहीं। यह ऑब्जेक्ट डिटेक्शन के विपरीत है, जो आयताकार क्षेत्रों में वस्तुओं का पता लगाता है, और छवि वर्गीकरण , जो समग्र छवि को वर्गीकृत करता है।

वर्तमान कार्यान्वयन में निम्नलिखित विशेषताएं शामिल हैं:

  1. DeepLabv1: हम उस रिज़ॉल्यूशन को स्पष्ट रूप से नियंत्रित करने के लिए एट्रस कन्वोल्यूशन का उपयोग करते हैं जिस पर डीप कन्वोल्यूशनल न्यूरल नेटवर्क्स के भीतर फीचर प्रतिक्रियाओं की गणना की जाती है।
  2. DeepLabv2: हम कई नमूनाकरण दरों और प्रभावी फ़ील्ड-ऑफ़-व्यू पर फ़िल्टर के साथ कई पैमाने पर वस्तुओं को मजबूती से विभाजित करने के लिए एट्रस स्पैटियल पिरामिड पूलिंग (एएसपीपी) का उपयोग करते हैं।
  3. DeepLabv3: हम लंबी दूरी की जानकारी कैप्चर करने के लिए एएसपीपी मॉड्यूल को छवि-स्तरीय सुविधा [5, 6] के साथ बढ़ाते हैं। हम प्रशिक्षण को सुविधाजनक बनाने के लिए बैच सामान्यीकरण [7] पैरामीटर भी शामिल करते हैं। विशेष रूप से, हम प्रशिक्षण और मूल्यांकन के दौरान विभिन्न आउटपुट स्ट्राइड्स पर आउटपुट सुविधाओं को निकालने के लिए एट्रस कनवल्शन लागू करते हैं, जो बीएन को आउटपुट स्ट्राइड = 16 पर कुशलतापूर्वक प्रशिक्षित करने में सक्षम बनाता है और मूल्यांकन के दौरान आउटपुट स्ट्राइड = 8 पर उच्च प्रदर्शन प्राप्त करता है।
  4. DeepLabv3+: हम विशेष रूप से ऑब्जेक्ट सीमाओं के साथ विभाजन परिणामों को परिष्कृत करने के लिए एक सरल लेकिन प्रभावी डिकोडर मॉड्यूल को शामिल करने के लिए DeepLabv3 का विस्तार करते हैं। इसके अलावा, इस एनकोडर-डिकोडर संरचना में कोई व्यक्ति परिशुद्धता और रनटाइम को ट्रेड-ऑफ करने के लिए एट्रस कनवल्शन द्वारा निकाले गए एनकोडर सुविधाओं के रिज़ॉल्यूशन को मनमाने ढंग से नियंत्रित कर सकता है।

प्रदर्शन मानदंड

प्रदर्शन बेंचमार्क नंबर यहां वर्णित टूल से तैयार किए जाते हैं।

मॉडल नाम मॉडल का आकार उपकरण जीपीयू CPU
डीपलैब v3 2.7 एमबी पिक्सेल 3 (एंड्रॉइड 10) 16 मि.से 37ms*
पिक्सेल 4 (एंड्रॉइड 10) 20ms 23ms*
आईफोन एक्सएस (आईओएस 12.4.1) 16 मि.से 25ms**

* 4 धागों का प्रयोग किया गया।

** सर्वोत्तम प्रदर्शन परिणाम के लिए iPhone पर 2 थ्रेड का उपयोग किया जाता है।

आगे पढ़ना और संसाधन