সেগমেন্টেশন

ইমেজ সেগমেন্টেশন হল ডিজিটাল ইমেজকে একাধিক সেগমেন্টে বিভক্ত করার প্রক্রিয়া (পিক্সেলের সেট, ইমেজ অবজেক্ট নামেও পরিচিত)। বিভাজনের লক্ষ্য হল একটি চিত্রের উপস্থাপনাকে সহজ করা এবং/অথবা এমন কিছুতে পরিবর্তন করা যা আরও অর্থপূর্ণ এবং বিশ্লেষণ করা সহজ।

নিম্নলিখিত চিত্রটি অ্যান্ড্রয়েডে ইমেজ সেগমেন্টেশন মডেলের আউটপুট দেখায়। মডেলটি উচ্চ নির্ভুলতার সাথে লক্ষ্যবস্তুগুলির উপর একটি মুখোশ তৈরি করবে।

এবার শুরু করা যাক

আপনি যদি TensorFlow Lite-এ নতুন হয়ে থাকেন এবং Android বা iOS-এর সাথে কাজ করেন, তাহলে আপনাকে নিম্নলিখিত উদাহরণের অ্যাপ্লিকেশনগুলি অন্বেষণ করার পরামর্শ দেওয়া হচ্ছে যা আপনাকে শুরু করতে সাহায্য করতে পারে।

কোডের মাত্র কয়েক লাইনের মধ্যে ইমেজ সেগমেন্টেশন মডেলগুলিকে একীভূত করতে আপনি TensorFlow Lite Task Library থেকে আউট-অফ-বক্স API ব্যবহার করতে পারেন। এছাড়াও আপনি TensorFlow Lite ইন্টারপ্রেটার Java API ব্যবহার করে মডেলটিকে সংহত করতে পারেন।

নীচের অ্যান্ড্রয়েড উদাহরণটি যথাক্রমে lib_task_api এবং lib_interpreter হিসাবে উভয় পদ্ধতির বাস্তবায়ন প্রদর্শন করে।

অ্যান্ড্রয়েড উদাহরণ দেখুন

iOS উদাহরণ দেখুন

আপনি যদি Android বা iOS ছাড়া অন্য কোনো প্ল্যাটফর্ম ব্যবহার করেন, অথবা আপনি ইতিমধ্যেই TensorFlow Lite API- এর সাথে পরিচিত হন, তাহলে আপনি আমাদের স্টার্টার ইমেজ সেগমেন্টেশন মডেল ডাউনলোড করতে পারেন।

স্টার্টার মডেল ডাউনলোড করুন

মডেলের বিবরণ

ডিপল্যাব হল শব্দার্থিক ইমেজ সেগমেন্টেশনের জন্য একটি অত্যাধুনিক গভীর শিক্ষার মডেল, যেখানে লক্ষ্য হল ইনপুট চিত্রের প্রতিটি পিক্সেলে শব্দার্থিক লেবেল (যেমন ব্যক্তি, কুকুর, বিড়াল) বরাদ্দ করা।

কিভাবে এটা কাজ করে

শব্দার্থিক চিত্র বিভাজন ভবিষ্যদ্বাণী করে যে একটি চিত্রের প্রতিটি পিক্সেল একটি নির্দিষ্ট শ্রেণীর সাথে যুক্ত কিনা। এটি বস্তু সনাক্তকরণের বিপরীতে, যা আয়তক্ষেত্রাকার অঞ্চলে বস্তু সনাক্ত করে এবং চিত্র শ্রেণীবিভাগ , যা সামগ্রিক চিত্রকে শ্রেণীবদ্ধ করে।

বর্তমান বাস্তবায়ন নিম্নলিখিত বৈশিষ্ট্য অন্তর্ভুক্ত:

  1. DeepLabv1: ডিপ কনভোলিউশনাল নিউরাল নেটওয়ার্কের মধ্যে বৈশিষ্ট্যের প্রতিক্রিয়াগুলি যে রেজোলিউশনে গণনা করা হয় তা স্পষ্টভাবে নিয়ন্ত্রণ করতে আমরা অ্যাট্রাস কনভোলিউশন ব্যবহার করি।
  2. DeepLabv2: আমরা একাধিক নমুনা হার এবং কার্যকর ক্ষেত্র-অফ-ভিউতে ফিল্টার সহ একাধিক স্কেলে বস্তুগুলিকে দৃঢ়ভাবে ভাগ করতে অ্যাট্রাস স্পেসিয়াল পিরামিড পুলিং (ASPP) ব্যবহার করি।
  3. DeepLabv3: আমরা দীর্ঘ পরিসরের তথ্য ক্যাপচার করতে ইমেজ-লেভেল বৈশিষ্ট্য [5, 6] সহ ASPP মডিউলকে বাড়িয়ে তুলি। প্রশিক্ষণের সুবিধার্থে আমরা ব্যাচ স্বাভাবিককরণ [7] পরামিতিগুলিও অন্তর্ভুক্ত করি। বিশেষ করে, আমরা প্রশিক্ষণ এবং মূল্যায়নের সময় বিভিন্ন আউটপুট স্ট্রাইডে আউটপুট বৈশিষ্ট্যগুলি বের করার জন্য অ্যাট্রস কনভোলিউশন প্রয়োগ করি, যা দক্ষতার সাথে আউটপুট স্ট্রাইড = 16 এ প্রশিক্ষণ বিএনকে সক্ষম করে এবং মূল্যায়নের সময় আউটপুট স্ট্রাইড = 8 এ উচ্চ কার্যকারিতা অর্জন করে।
  4. DeepLabv3+: বিশেষ করে বস্তুর সীমানা বরাবর বিভাজন ফলাফলগুলিকে পরিমার্জিত করার জন্য আমরা একটি সহজ কিন্তু কার্যকর ডিকোডার মডিউল অন্তর্ভুক্ত করতে DeepLabv3 প্রসারিত করি। তদ্ব্যতীত, এই এনকোডার-ডিকোডার কাঠামোতে কেউ নির্বিচারে ট্রেড-অফ নির্ভুলতা এবং রানটাইমের সাথে অ্যাট্রাস কনভল্যুশনের মাধ্যমে নিষ্কাশিত এনকোডার বৈশিষ্ট্যগুলির রেজোলিউশন নিয়ন্ত্রণ করতে পারে।

কর্মক্ষমতা বেঞ্চমার্ক

পারফরম্যান্স বেঞ্চমার্ক নম্বর এখানে বর্ণিত টুল দিয়ে তৈরি করা হয়।

ণশড মডেলের আকার যন্ত্র জিপিইউ সিপিইউ
ডিপল্যাব v3 2.7 Mb Pixel 3 (Android 10) 16ms 37ms*
Pixel 4 (Android 10) 20ms 23ms*
iPhone XS (iOS 12.4.1) 16ms 25ms**

* 4টি থ্রেড ব্যবহার করা হয়েছে।

** সেরা পারফরম্যান্স ফলাফলের জন্য আইফোনে 2টি থ্রেড ব্যবহার করা হয়েছে।

আরও পড়া এবং সম্পদ