লোভের সাথে স্কোরের নিচের ক্রম অনুসারে বাউন্ডিং বাক্সের একটি উপসেট নির্বাচন করে,
পূর্বে নির্বাচিত বাক্সগুলির সাথে উচ্চ ইন্টারসেকশন-ওভার-ইউনিয়ন (IOU) ওভারল্যাপযুক্ত বাক্সগুলি ছাঁটাই। `স্কোর_থ্রেশহোল্ড` এর চেয়ে কম স্কোর সহ বাউন্ডিং বাক্সগুলি সরানো হয়েছে৷ বাউন্ডিং বাক্সগুলি [y1, x1, y2, x2] হিসাবে সরবরাহ করা হয়, যেখানে (y1, x1) এবং (y2, x2) বাক্সের কোণগুলির যেকোনো তির্যক জোড়ার স্থানাঙ্ক এবং স্থানাঙ্কগুলিকে স্বাভাবিক হিসাবে প্রদান করা যেতে পারে (যেমন, শুয়ে থাকা) ব্যবধান [0, 1]) বা পরম। উল্লেখ্য যে এই অ্যালগরিদমটি অজ্ঞেয়বাদী যেখানে স্থানাঙ্ক ব্যবস্থার উৎপত্তি এবং আরও সাধারণভাবে স্থানাঙ্ক ব্যবস্থার অর্থোগোনাল রূপান্তর এবং অনুবাদের ক্ষেত্রে অপরিবর্তনীয়; এইভাবে স্থানাঙ্ক সিস্টেমের অনুবাদ বা প্রতিফলনের ফলে অ্যালগরিদম দ্বারা একই বাক্সগুলি নির্বাচন করা হয়। এই ক্রিয়াকলাপের আউটপুট হল পূর্ণসংখ্যার একটি সেট যা নির্বাচিত বাক্সগুলির প্রতিনিধিত্বকারী বাউন্ডিং বাক্সগুলির ইনপুট সংগ্রহে সূচী করে। নির্বাচিত সূচকগুলির সাথে সম্পর্কিত বাউন্ডিং বক্স স্থানাঙ্কগুলি তারপর `tf.gather অপারেশন` ব্যবহার করে প্রাপ্ত করা যেতে পারে। উদাহরণস্বরূপ: নির্বাচিত_সূচক = tf.image.non_max_suppression_v2( বক্স, স্কোর, max_output_size, iou_threshold, score_threshold) Selected_boxes = tf.gather(বক্স, নির্বাচিত_সূচক) এই অপটি একটি সফট-এনএমএস সমর্থন করে (গাউসিয়ান আল ওজন সহ) , https://arxiv.org/abs/1704.04503) যেখানে বক্সগুলি সরাসরি ছাঁটাই করার পরিবর্তে অন্যান্য ওভারল্যাপিং বাক্সগুলির স্কোর হ্রাস করে। এই সফ্ট-এনএমএস মোড সক্ষম করতে, `soft_nms_sigma` প্যারামিটারটি 0-এর থেকে বড় হতে সেট করুন।
নেস্টেড ক্লাস
ক্লাস | NonMaxSuppressionV5.Options | জন্য ঐচ্ছিক বৈশিষ্ট্য NonMaxSuppressionV5 |
পাবলিক পদ্ধতি
স্ট্যাটিক <টি নম্বর প্রসারিত> NonMaxSuppressionV5 <টি> | |
স্ট্যাটিক NonMaxSuppressionV5.Options | padToMaxOutputSize (বুলিয়ান padToMaxOutputSize) |
আউটপুট <integer> | selectedIndices () একটি 1-D পূর্ণসংখ্যা টেনসর আকৃতি `[M]` বাক্স টেনসর থেকে নির্বাচিত সূচকের প্রতিনিধিত্ব করে, যেখানে `M <= max_output_size`। |
আউটপুট <টি> | selectedScores () একটি 1-D ফ্লোট টেনসর আকৃতি `[M]` প্রতিটি নির্বাচিত বাক্সের জন্য সংশ্লিষ্ট স্কোরগুলিকে প্রতিনিধিত্ব করে, যেখানে `M <= max_output_size`। |
আউটপুট <integer> | validOutputs () একটি 0-D পূর্ণসংখ্যা টেনসর যা 'নির্বাচিত_সূচক'-এ বৈধ উপাদানের সংখ্যা উপস্থাপন করে, বৈধ উপাদানগুলি প্রথমে উপস্থিত হয়৷ |
উত্তরাধিকারসূত্রে প্রাপ্ত পদ্ধতি
পাবলিক পদ্ধতি
পাবলিক স্ট্যাটিক NonMaxSuppressionV5 <টি> তৈরি করুন ( ব্যাপ্তি সুযোগ প্রতীক <টি> বক্স, প্রতীক <টি> স্কোর, প্রতীক <integer> maxOutputSize, প্রতীক <টি> iouThreshold, প্রতীক <টি> scoreThreshold, প্রতীক <টি> softNmsSigma, বিকল্প .. । অপশন)
একটি নতুন NonMaxSuppressionV5 অপারেশন মোড়ানো একটি ক্লাস তৈরি করার কারখানার পদ্ধতি।
পরামিতি
সুযোগ | বর্তমান সুযোগ |
---|---|
বাক্স | আকৃতির একটি 2-D ফ্লোট টেনসর `[সংখ্যা_বক্স, 4]`। |
স্কোর | আকৃতির একটি 1-D ফ্লোট টেনসর `[num_boxes]` প্রতিটি বাক্সের সাথে সম্পর্কিত একটি একক স্কোর প্রতিনিধিত্ব করে (প্রতিটি বাক্সের সারি)। |
maxOutputSize | একটি স্কেলার পূর্ণসংখ্যা টেনসর যা সর্বাধিক সংখ্যক বাক্সের প্রতিনিধিত্ব করে যা অ-ম্যাক্স সাপ্রেশন দ্বারা নির্বাচন করা হবে। |
iouThreshold | একটি 0-D ফ্লোট টেনসর যা IOU এর ক্ষেত্রে বাক্সগুলি খুব বেশি ওভারল্যাপ করছে কিনা তা সিদ্ধান্ত নেওয়ার জন্য থ্রেশহোল্ডের প্রতিনিধিত্ব করে৷ |
স্কোর থ্রেশহোল্ড | একটি 0-ডি ফ্লোট টেনসর স্কোরের উপর ভিত্তি করে কখন বাক্সগুলি সরাতে হবে তা সিদ্ধান্ত নেওয়ার জন্য থ্রেশহোল্ডের প্রতিনিধিত্ব করে৷ |
softNmsSigma | একটি 0-ডি ফ্লোট টেনসর সফট এনএমএসের জন্য সিগমা প্যারামিটারের প্রতিনিধিত্ব করে; বোদলা এট আল দেখুন (cf https://arxiv.org/abs/1704.04503)। যখন `soft_nms_sigma=0.0` (যা ডিফল্ট), আমরা আবার স্ট্যান্ডার্ড (হার্ড) NMS-এ ফিরে যাই। |
বিকল্প | ঐচ্ছিক বৈশিষ্ট্য মান বহন করে |
রিটার্নস
- NonMaxSuppressionV5 এর একটি নতুন উদাহরণ
পাবলিক স্ট্যাটিক NonMaxSuppressionV5.Options padToMaxOutputSize (বুলিয়ান padToMaxOutputSize)
পরামিতি
padToMaxOutputSize | সত্য হলে, আউটপুট `selected_indices` দৈর্ঘ্য `max_output_size` হতে প্যাড করা হয়। ডিফল্ট থেকে মিথ্যা. |
---|
পাবলিক আউটপুট <integer> selectedIndices ()
একটি 1-D পূর্ণসংখ্যা টেনসর আকৃতি `[M]` বাক্স টেনসর থেকে নির্বাচিত সূচকের প্রতিনিধিত্ব করে, যেখানে `M <= max_output_size`।
পাবলিক আউটপুট <টি> selectedScores ()
একটি 1-D ফ্লোট টেনসর আকৃতি `[M]` প্রতিটি নির্বাচিত বাক্সের জন্য সংশ্লিষ্ট স্কোরগুলিকে প্রতিনিধিত্ব করে, যেখানে `M <= max_output_size`। সফ্ট এনএমএস ব্যবহার করার সময় স্কোর শুধুমাত্র সংশ্লিষ্ট ইনপুট স্কোর থেকে আলাদা হয় (যেমন যখন `soft_nms_sigma>0`)
পাবলিক আউটপুট <integer> validOutputs ()
একটি 0-D পূর্ণসংখ্যা টেনসর যা 'নির্বাচিত_সূচক'-এ বৈধ উপাদানের সংখ্যা উপস্থাপন করে, বৈধ উপাদানগুলি প্রথমে উপস্থিত হয়৷