ইমেজ সেগমেন্টেশন হল ডিজিটাল ইমেজকে একাধিক সেগমেন্টে বিভক্ত করার প্রক্রিয়া (পিক্সেলের সেট, ইমেজ অবজেক্ট নামেও পরিচিত)। বিভাজনের লক্ষ্য হল একটি চিত্রের উপস্থাপনাকে সহজ করা এবং/অথবা এমন কিছুতে পরিবর্তন করা যা আরও অর্থপূর্ণ এবং বিশ্লেষণ করা সহজ।
নিম্নলিখিত চিত্রটি অ্যান্ড্রয়েডে ইমেজ সেগমেন্টেশন মডেলের আউটপুট দেখায়। মডেলটি উচ্চ নির্ভুলতার সাথে লক্ষ্যবস্তুগুলির উপর একটি মুখোশ তৈরি করবে।
এবার শুরু করা যাক
আপনি যদি TensorFlow Lite-এ নতুন হয়ে থাকেন এবং Android বা iOS-এর সাথে কাজ করেন, তাহলে আপনাকে নিম্নলিখিত উদাহরণের অ্যাপ্লিকেশনগুলি অন্বেষণ করার পরামর্শ দেওয়া হচ্ছে যা আপনাকে শুরু করতে সাহায্য করতে পারে।
কোডের মাত্র কয়েক লাইনের মধ্যে ইমেজ সেগমেন্টেশন মডেলগুলিকে একীভূত করতে আপনি TensorFlow Lite Task Library থেকে আউট-অফ-বক্স API ব্যবহার করতে পারেন। এছাড়াও আপনি TensorFlow Lite ইন্টারপ্রেটার Java API ব্যবহার করে মডেলটিকে সংহত করতে পারেন।
নীচের অ্যান্ড্রয়েড উদাহরণটি যথাক্রমে lib_task_api এবং lib_interpreter হিসাবে উভয় পদ্ধতির বাস্তবায়ন প্রদর্শন করে।
আপনি যদি Android বা iOS ছাড়া অন্য কোনো প্ল্যাটফর্ম ব্যবহার করেন, অথবা আপনি ইতিমধ্যেই TensorFlow Lite API- এর সাথে পরিচিত হন, তাহলে আপনি আমাদের স্টার্টার ইমেজ সেগমেন্টেশন মডেল ডাউনলোড করতে পারেন।
মডেলের বিবরণ
ডিপল্যাব হল শব্দার্থিক ইমেজ সেগমেন্টেশনের জন্য একটি অত্যাধুনিক গভীর শিক্ষার মডেল, যেখানে লক্ষ্য হল ইনপুট চিত্রের প্রতিটি পিক্সেলে শব্দার্থিক লেবেল (যেমন ব্যক্তি, কুকুর, বিড়াল) বরাদ্দ করা।
কিভাবে এটা কাজ করে
শব্দার্থিক চিত্র বিভাজন ভবিষ্যদ্বাণী করে যে একটি চিত্রের প্রতিটি পিক্সেল একটি নির্দিষ্ট শ্রেণীর সাথে যুক্ত কিনা। এটি বস্তু সনাক্তকরণের বিপরীতে, যা আয়তক্ষেত্রাকার অঞ্চলে বস্তু সনাক্ত করে এবং চিত্র শ্রেণীবিভাগ , যা সামগ্রিক চিত্রকে শ্রেণীবদ্ধ করে।
বর্তমান বাস্তবায়ন নিম্নলিখিত বৈশিষ্ট্য অন্তর্ভুক্ত:
- DeepLabv1: ডিপ কনভোলিউশনাল নিউরাল নেটওয়ার্কের মধ্যে বৈশিষ্ট্যের প্রতিক্রিয়াগুলি যে রেজোলিউশনে গণনা করা হয় তা স্পষ্টভাবে নিয়ন্ত্রণ করতে আমরা অ্যাট্রাস কনভোলিউশন ব্যবহার করি।
- DeepLabv2: আমরা একাধিক নমুনা হার এবং কার্যকর ক্ষেত্র-অফ-ভিউতে ফিল্টার সহ একাধিক স্কেলে বস্তুগুলিকে দৃঢ়ভাবে ভাগ করতে অ্যাট্রাস স্পেসিয়াল পিরামিড পুলিং (ASPP) ব্যবহার করি।
- DeepLabv3: আমরা দীর্ঘ পরিসরের তথ্য ক্যাপচার করতে ইমেজ-লেভেল বৈশিষ্ট্য [5, 6] সহ ASPP মডিউলকে বাড়িয়ে তুলি। প্রশিক্ষণের সুবিধার্থে আমরা ব্যাচ স্বাভাবিককরণ [7] পরামিতিগুলিও অন্তর্ভুক্ত করি। বিশেষ করে, আমরা প্রশিক্ষণ এবং মূল্যায়নের সময় বিভিন্ন আউটপুট স্ট্রাইডে আউটপুট বৈশিষ্ট্যগুলি বের করার জন্য অ্যাট্রস কনভোলিউশন প্রয়োগ করি, যা দক্ষতার সাথে আউটপুট স্ট্রাইড = 16 এ প্রশিক্ষণ বিএনকে সক্ষম করে এবং মূল্যায়নের সময় আউটপুট স্ট্রাইড = 8 এ উচ্চ কার্যকারিতা অর্জন করে।
- DeepLabv3+: বিশেষ করে বস্তুর সীমানা বরাবর বিভাজন ফলাফলগুলিকে পরিমার্জিত করার জন্য আমরা একটি সহজ কিন্তু কার্যকর ডিকোডার মডিউল অন্তর্ভুক্ত করতে DeepLabv3 প্রসারিত করি। তদ্ব্যতীত, এই এনকোডার-ডিকোডার কাঠামোতে কেউ নির্বিচারে ট্রেড-অফ নির্ভুলতা এবং রানটাইমের সাথে অ্যাট্রাস কনভল্যুশনের মাধ্যমে নিষ্কাশিত এনকোডার বৈশিষ্ট্যগুলির রেজোলিউশন নিয়ন্ত্রণ করতে পারে।
কর্মক্ষমতা বেঞ্চমার্ক
পারফরম্যান্স বেঞ্চমার্ক নম্বর এখানে বর্ণিত টুল দিয়ে তৈরি করা হয়।
ণশড | মডেলের আকার | যন্ত্র | জিপিইউ | সিপিইউ |
---|---|---|---|---|
ডিপল্যাব v3 | 2.7 Mb | Pixel 3 (Android 10) | 16ms | 37ms* |
Pixel 4 (Android 10) | 20ms | 23ms* | ||
iPhone XS (iOS 12.4.1) | 16ms | 25ms** |
* 4টি থ্রেড ব্যবহার করা হয়েছে।
** সেরা পারফরম্যান্স ফলাফলের জন্য আইফোনে 2টি থ্রেড ব্যবহার করা হয়েছে।