ন্যায্যতার জন্য বাইনারি এবং মাল্টি-ক্লাস ক্লাসিফায়ারের মূল্যায়ন করার জন্য ন্যায্যতা নির্দেশক একটি দরকারী টুল। অবশেষে, আমরা এই টুলটি প্রসারিত করার আশা করি, আপনার সকলের সাথে অংশীদারিত্বে, আরও বেশি বিবেচনার মূল্যায়ন করতে।
মনে রাখবেন যে পরিমাণগত মূল্যায়ন একটি বৃহত্তর ব্যবহারকারীর অভিজ্ঞতার মূল্যায়নের শুধুমাত্র একটি অংশ। বিভিন্ন প্রেক্ষাপট সম্পর্কে চিন্তা করে শুরু করুন যার মাধ্যমে একজন ব্যবহারকারী আপনার পণ্যটি অনুভব করতে পারে। আপনার পণ্য পরিবেশন করা প্রত্যাশিত ব্যবহারকারীদের বিভিন্ন ধরনের কারা? আর কে অভিজ্ঞতা দ্বারা প্রভাবিত হতে পারে?
মানুষের উপর AI এর প্রভাব বিবেচনা করার সময়, এটি সর্বদা মনে রাখা গুরুত্বপূর্ণ যে মানব সমাজগুলি অত্যন্ত জটিল! লোকেদের বোঝা, এবং তাদের সামাজিক পরিচয়, সামাজিক কাঠামো এবং সাংস্কৃতিক ব্যবস্থা প্রতিটি তাদের নিজস্ব অধিকারে খোলা গবেষণার বিশাল ক্ষেত্র। বিশ্বজুড়ে আন্তঃ-সাংস্কৃতিক পার্থক্যের জটিলতাগুলিকে ছুঁড়ে ফেলুন এবং সামাজিক প্রভাব বোঝার জন্য এমনকি একটি পা রাখাও চ্যালেঞ্জিং হতে পারে। যখনই সম্ভব, এটি সুপারিশ করা হয় যে আপনি উপযুক্ত ডোমেন বিশেষজ্ঞদের সাথে পরামর্শ করুন, যার মধ্যে থাকতে পারে সমাজ বিজ্ঞানী, সমাজভাষাবিদ এবং সাংস্কৃতিক নৃতাত্ত্বিক, সেইসাথে জনসংখ্যার সদস্যদের সাথে যাদের প্রযুক্তি স্থাপন করা হবে।
একটি একক মডেল, উদাহরণস্বরূপ, বিষাক্ততার মডেল যা আমরা উদাহরণ কোলাব- এ ব্যবহার করি, অনেকগুলি বিভিন্ন প্রসঙ্গে ব্যবহার করা যেতে পারে। আপত্তিকর মন্তব্যগুলি ফিল্টার করার জন্য একটি ওয়েবসাইটে মোতায়েন করা একটি বিষাক্ত মডেল, উদাহরণস্বরূপ, একটি উদাহরণ ওয়েব UI-তে মোতায়েন করা মডেলের তুলনায় একটি খুব ভিন্ন ব্যবহারের ক্ষেত্রে যেখানে ব্যবহারকারীরা একটি বাক্যে টাইপ করতে পারে এবং মডেলটি কী স্কোর দেয় তা দেখতে পারে৷ ব্যবহারের ক্ষেত্রে এবং ব্যবহারকারীরা মডেলের ভবিষ্যদ্বাণীর অভিজ্ঞতার উপর নির্ভর করে, আপনার পণ্যের বিভিন্ন ঝুঁকি, প্রভাব এবং সুযোগ থাকবে এবং আপনি বিভিন্ন ন্যায্যতার উদ্বেগের জন্য মূল্যায়ন করতে চাইতে পারেন।
উপরের প্রশ্নগুলি হল আপনার ML-ভিত্তিক পণ্য ডিজাইন এবং বিকাশ করার সময় ন্যায্যতা সহ কোন নৈতিক বিবেচনার ভিত্তি। এই প্রশ্নগুলিও অনুপ্রাণিত করে কোন মেট্রিক্স এবং ব্যবহারকারীদের কোন গ্রুপের মূল্যায়ন করার জন্য আপনার টুলটি ব্যবহার করা উচিত।
আরও ডুব দেওয়ার আগে, শুরু করার জন্য এখানে তিনটি প্রস্তাবিত সংস্থান রয়েছে:
- মানব-কেন্দ্রিক এআই ডিজাইনের জন্য দ্য পিপল + এআই গাইডবুক : মেশিন-লার্নিং ভিত্তিক পণ্য ডিজাইন করার সময় এই গাইডবুকটি প্রশ্ন এবং দিকগুলি মনে রাখার জন্য একটি দুর্দান্ত সংস্থান। যদিও আমরা ডিজাইনারদের কথা মাথায় রেখে এই গাইডবুকটি তৈরি করেছি, অনেক নীতি উপরে উল্লিখিত প্রশ্নের মতো প্রশ্নের উত্তর দিতে সাহায্য করবে।
- আমাদের ন্যায্যতার পাঠ শিখেছে : Google I/O-এ এই আলোচনা পাঠগুলি নিয়ে আলোচনা করে যা আমরা অন্তর্ভুক্ত পণ্যগুলি তৈরি এবং ডিজাইন করার লক্ষ্যে শিখেছি।
- ML Crash Course: Fairness : ML Crash Course-এর একটি 70 মিনিটের বিভাগ রয়েছে যা ন্যায্যতা সংক্রান্ত উদ্বেগগুলি চিহ্নিত এবং মূল্যায়ন করার জন্য নিবেদিত
সুতরাং, কেন পৃথক টুকরা তাকান? স্বতন্ত্র স্লাইসগুলির উপর মূল্যায়ন গুরুত্বপূর্ণ কারণ শক্তিশালী সামগ্রিক মেট্রিক্স নির্দিষ্ট গোষ্ঠীর জন্য দুর্বল কর্মক্ষমতাকে অস্পষ্ট করতে পারে। একইভাবে, একটি নির্দিষ্ট মেট্রিকের জন্য ভাল পারফরম্যান্স (নির্ভুলতা, AUC) সবসময় অন্যান্য মেট্রিকের জন্য গ্রহণযোগ্য পারফরম্যান্সে অনুবাদ করে না (ফলস ইতিবাচক হার, মিথ্যা নেতিবাচক হার) যা ব্যবহারকারীদের জন্য সুযোগ এবং ক্ষতির মূল্যায়নে সমানভাবে গুরুত্বপূর্ণ।
নীচের বিভাগগুলি বিবেচনা করার জন্য কিছু দিক বিবেচনা করবে।
আমি কোন গ্রুপ দ্বারা টুকরা করা উচিত?
সাধারণভাবে, একটি ভাল অভ্যাস হল আপনার পণ্যের দ্বারা প্রভাবিত হতে পারে এমন অনেকগুলি গোষ্ঠীর দ্বারা টুকরো টুকরো করা, যেহেতু আপনি কখনই জানেন না যে কখন একটির জন্য পারফরম্যান্স আলাদা হতে পারে। যাইহোক, আপনি যদি নিশ্চিত না হন, তাহলে আপনার পণ্যের সাথে জড়িত হতে পারে এমন বিভিন্ন ব্যবহারকারীদের সম্পর্কে চিন্তা করুন এবং তারা কীভাবে প্রভাবিত হতে পারে। বিবেচনা করুন, বিশেষ করে, জাতি, জাতি, লিঙ্গ, জাতীয়তা, আয়, যৌন অভিমুখীতা এবং অক্ষমতার অবস্থার মতো সংবেদনশীল বৈশিষ্ট্যগুলির সাথে সম্পর্কিত স্লাইসগুলি।
আমি যে স্লাইসগুলি তদন্ত করতে চাই তার জন্য যদি আমার কাছে লেবেলযুক্ত ডেটা না থাকে?
ভাল প্রশ্ন. আমরা জানি যে অনেক ডেটাসেটে স্বতন্ত্র পরিচয় বৈশিষ্ট্যের জন্য গ্রাউন্ড-ট্রুথ লেবেল নেই।
আপনি যদি নিজেকে এই অবস্থানে খুঁজে পান, আমরা কয়েকটি পদ্ধতির সুপারিশ করি:
- শনাক্ত করুন যে আপনার কাছে এমন বৈশিষ্ট্য রয়েছে যা আপনাকে গ্রুপ জুড়ে পারফরম্যান্স সম্পর্কে কিছু অন্তর্দৃষ্টি দিতে পারে। উদাহরণ স্বরূপ, ভূগোল যদিও জাতিগত এবং বর্ণের সমতুল্য নয়, আপনাকে পারফরম্যান্সের ক্ষেত্রে যেকোন ভিন্ন ধরনের নিদর্শন উন্মোচন করতে সাহায্য করতে পারে
- আপনার সমস্যাটি ভালভাবে ম্যাপ করতে পারে এমন প্রতিনিধি পাবলিক ডেটাসেট আছে কিনা তা চিহ্নিত করুন। আপনি Google AI সাইটে বিভিন্ন ধরনের এবং অন্তর্ভুক্তিমূলক ডেটাসেট খুঁজে পেতে পারেন, যার মধ্যে রয়েছে প্রজেক্ট রেসপেক্ট , ইনক্লুসিভ ইমেজ এবং ওপেন ইমেজ এক্সটেন্ডেড ।
- লিভারেজ নিয়ম বা শ্রেণীবিভাগ, যখন প্রাসঙ্গিক হয়, আপনার ডেটাকে উদ্দেশ্যমূলক পৃষ্ঠ-স্তরের বৈশিষ্ট্যগুলির সাথে লেবেল করতে। উদাহরণস্বরূপ, বাক্যটিতে একটি পরিচয় শব্দ আছে কিনা তা আপনি পাঠ্যকে লেবেল করতে পারেন। মনে রাখবেন যে শ্রেণিবিন্যাসকারীদের নিজস্ব চ্যালেঞ্জ রয়েছে এবং আপনি যদি সতর্ক না হন তবে পক্ষপাতের আরেকটি স্তরও প্রবর্তন করতে পারে। আপনার ক্লাসিফায়ার আসলে কি শ্রেণীবদ্ধ করছে সে সম্পর্কে পরিষ্কার হন। উদাহরণস্বরূপ, চিত্রগুলিতে একটি বয়স শ্রেণিবদ্ধকারী প্রকৃতপক্ষে অনুভূত বয়সকে শ্রেণিবদ্ধ করে। উপরন্তু, যখন সম্ভব, পৃষ্ঠ-স্তরের বৈশিষ্ট্যগুলিকে লিভারেজ করুন যা ডেটাতে উদ্দেশ্যমূলকভাবে চিহ্নিত করা যেতে পারে । উদাহরণস্বরূপ, জাতি বা জাতিগততার জন্য একটি চিত্র শ্রেণীবিভাগ তৈরি করা খারাপ-পরামর্শ দেওয়া হয়, কারণ এগুলি দৃশ্যমান বৈশিষ্ট্য নয় যা একটি ছবিতে সংজ্ঞায়িত করা যেতে পারে। একটি শ্রেণীবদ্ধকারী সম্ভবত প্রক্সি বা স্টেরিওটাইপগুলি বেছে নেবে। পরিবর্তে, স্কিন টোনের জন্য একটি ক্লাসিফায়ার তৈরি করা একটি চিত্রকে লেবেল এবং মূল্যায়ন করার আরও উপযুক্ত উপায় হতে পারে। সবশেষে, এই ধরনের গুণাবলী লেবেল করা ক্লাসিফায়ারদের জন্য উচ্চ নির্ভুলতা নিশ্চিত করুন।
- লেবেলযুক্ত আরও প্রতিনিধি ডেটা খুঁজুন
সর্বদা একাধিক, বিভিন্ন ডেটাসেটের মূল্যায়ন নিশ্চিত করুন।
যদি আপনার মূল্যায়নের ডেটা আপনার ব্যবহারকারী বেসের জন্য পর্যাপ্তভাবে প্রতিনিধিত্ব না করে, বা যে ধরনের ডেটার সম্মুখীন হতে পারে, তাহলে আপনি প্রতারণামূলকভাবে ভাল ন্যায্যতা মেট্রিক্সের সাথে শেষ হতে পারেন। একইভাবে, একটি ডেটাসেটের উচ্চ মডেল পারফরম্যান্স অন্যদের উপর উচ্চ কার্যক্ষমতার নিশ্চয়তা দেয় না।
মনে রাখবেন সাবগ্রুপগুলি সর্বদা ব্যক্তিদের শ্রেণীবদ্ধ করার সর্বোত্তম উপায় নয়।
লোকেরা বহুমাত্রিক এবং একাধিক গোষ্ঠীর অন্তর্গত, এমনকি একটি একক মাত্রার মধ্যেও -- এমন কাউকে বিবেচনা করুন যিনি বহুজাতিক, বা একাধিক জাতিগত গোষ্ঠীর অন্তর্গত। এছাড়াও, একটি প্রদত্ত জাতিগত গোষ্ঠীর জন্য সামগ্রিক মেট্রিক্স ন্যায়সঙ্গত দেখাতে পারে, বিশেষ মিথস্ক্রিয়া, যেমন জাতি এবং লিঙ্গ একসাথে অনাকাঙ্ক্ষিত পক্ষপাত দেখাতে পারে। অধিকন্তু, অনেক উপগোষ্ঠীর অস্পষ্ট সীমানা রয়েছে যা ক্রমাগত পুনরায় আঁকা হচ্ছে।
আমি কখন পর্যাপ্ত স্লাইস পরীক্ষা করেছি এবং কোন স্লাইসগুলি পরীক্ষা করতে হবে তা আমি কীভাবে জানব?
আমরা স্বীকার করি যে প্রচুর সংখ্যক গোষ্ঠী বা স্লাইস রয়েছে যা পরীক্ষার জন্য প্রাসঙ্গিক হতে পারে এবং যখন সম্ভব, আমরা বিভিন্ন এবং বিস্তৃত স্লাইসগুলিকে টুকরো টুকরো করার এবং মূল্যায়ন করার এবং তারপরে যেখানে আপনি উন্নতির সুযোগগুলি খুঁজে পান সেখানে গভীর-ডাইভ করার পরামর্শ দিই। এটা স্বীকার করাও গুরুত্বপূর্ণ যে যদিও আপনি পরীক্ষা করেছেন এমন স্লাইসগুলির বিষয়ে আপনি উদ্বেগ দেখতে পাচ্ছেন না, তবে এটি বোঝায় না যে আপনার পণ্যটি সমস্ত ব্যবহারকারীর জন্য কাজ করে এবং আপনি ক্রমাগত নতুন শনাক্ত করছেন তা নিশ্চিত করার জন্য বিভিন্ন ব্যবহারকারীর প্রতিক্রিয়া এবং পরীক্ষা নেওয়া গুরুত্বপূর্ণ সুযোগ
শুরু করার জন্য, আমরা আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে এবং ব্যবহারকারীরা আপনার পণ্যের সাথে জড়িত হতে পারে এমন বিভিন্ন উপায় সম্পর্কে চিন্তা করার পরামর্শ দিই। কিভাবে বিভিন্ন ব্যবহারকারীদের বিভিন্ন অভিজ্ঞতা হতে পারে? আপনি মূল্যায়ন করা উচিত টুকরা জন্য এর মানে কি? বিভিন্ন ব্যবহারকারীদের কাছ থেকে প্রতিক্রিয়া সংগ্রহ করা অগ্রাধিকার দেওয়ার জন্য সম্ভাব্য স্লাইসগুলিকেও হাইলাইট করতে পারে।
আমি কোন মেট্রিক্স নির্বাচন করা উচিত?
আপনার সিস্টেমের জন্য কোন মেট্রিকগুলিকে মূল্যায়ন করতে হবে তা নির্বাচন করার সময়, কে আপনার মডেলটি অনুভব করবে, এটি কীভাবে অনুভব করা হবে এবং সেই অভিজ্ঞতার প্রভাবগুলি বিবেচনা করুন৷
উদাহরণস্বরূপ, কীভাবে আপনার মডেল মানুষকে আরও মর্যাদা বা স্বায়ত্তশাসন দেয় বা তাদের মানসিক, শারীরিক বা আর্থিক সুস্থতাকে ইতিবাচকভাবে প্রভাবিত করে? বিপরীতে, আপনার মডেলের ভবিষ্যদ্বাণীগুলি কীভাবে মানুষের মর্যাদা বা স্বায়ত্তশাসনকে হ্রাস করতে পারে বা তাদের মানসিক, শারীরিক বা আর্থিক সুস্থতার উপর নেতিবাচক প্রভাব ফেলতে পারে?
সাধারণভাবে, আমরা ভাল অনুশীলন হিসাবে আপনার সমস্ত বিদ্যমান কর্মক্ষমতা মেট্রিক্স কাটার সুপারিশ করি। থ্রেশহোল্ড কীভাবে বিভিন্ন গ্রুপের পারফরম্যান্সকে প্রভাবিত করতে পারে তা বোঝার জন্য আমরা একাধিক থ্রেশহোল্ড জুড়ে আপনার মেট্রিকগুলি মূল্যায়ন করার পরামর্শ দিই ।
উপরন্তু, যদি একটি ভবিষ্যদ্বাণীকৃত লেবেল থাকে যা একইভাবে "ভাল" বা "খারাপ" হয়, তাহলে সেই লেবেলটির পূর্বাভাস দেওয়া হারে রিপোর্টিং (প্রতিটি উপগোষ্ঠীর জন্য) বিবেচনা করুন। উদাহরণস্বরূপ, একটি "ভাল" লেবেল হবে এমন একটি লেবেল যার ভবিষ্যদ্বাণী একজন ব্যক্তিকে কিছু সংস্থানে অ্যাক্সেস দেয়, বা কিছু কাজ সম্পাদন করতে সক্ষম করে।
শ্রেণীবিভাগের জন্য সমালোচনামূলক ন্যায্যতা মেট্রিক্স
একটি শ্রেণীবিভাগ মডেল সম্পর্কে চিন্তা করার সময়, ত্রুটির প্রভাব সম্পর্কে চিন্তা করুন (প্রকৃত "গ্রাউন্ড ট্রুথ" লেবেল এবং মডেল থেকে লেবেলের মধ্যে পার্থক্য)। যদি কিছু ত্রুটি আপনার ব্যবহারকারীদের জন্য আরও সুযোগ বা ক্ষতির কারণ হতে পারে, তবে নিশ্চিত করুন যে আপনি ব্যবহারকারীদের গ্রুপ জুড়ে এই ত্রুটিগুলির হারগুলি মূল্যায়ন করেছেন৷ এই ত্রুটির হারগুলি নীচে সংজ্ঞায়িত করা হয়েছে, বর্তমানে ফেয়ারনেস ইন্ডিকেটর বিটা দ্বারা সমর্থিত মেট্রিক্সে৷
পরের বছর ধরে, আমরা আশা করি বিভিন্ন ব্যবহারের কেস এবং এর সাথে সম্পর্কিত মেট্রিকগুলির কেস স্টাডি প্রকাশ করব যাতে বিভিন্ন মেট্রিক্স কখন সবচেয়ে উপযুক্ত হতে পারে তা আমরা আরও ভালভাবে হাইলাইট করতে পারি।
ন্যায্যতা সূচকে আজ মেট্রিক্স উপলব্ধ
পজিটিভ রেট/নেগেটিভ রেট
- সংজ্ঞা: ডেটা পয়েন্টের শতকরা শতাংশ যেগুলিকে ইতিবাচক বা নেতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়, স্থল সত্য থেকে স্বাধীন
- এর সাথে সম্পর্কিত: ডেমোগ্রাফিক প্যারিটি এবং ফলাফলের সমতা, যখন উপগোষ্ঠী জুড়ে সমান
- এই মেট্রিকটি কখন ব্যবহার করবেন: ন্যায্যতা ব্যবহারের ক্ষেত্রে যেখানে গোষ্ঠীর সমান চূড়ান্ত শতাংশ থাকা গুরুত্বপূর্ণ
সত্য ইতিবাচক হার / মিথ্যা নেতিবাচক হার
- সংজ্ঞা: পজিটিভ ডেটা পয়েন্টের শতাংশ (গ্রাউন্ড ট্রুথ হিসাবে লেবেলযুক্ত) যেগুলি সঠিকভাবে ইতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে, বা ইতিবাচক ডেটা পয়েন্টগুলির শতাংশ যা ভুলভাবে নেতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে
- এর সাথে সম্পর্কিত: সুযোগের সমতা (ইতিবাচক শ্রেণীর জন্য), যখন উপগোষ্ঠী জুড়ে সমান
- এই মেট্রিকটি কখন ব্যবহার করবেন: ন্যায্যতা ব্যবহারের ক্ষেত্রে যেখানে এটি গুরুত্বপূর্ণ যে প্রতিটি গ্রুপে যোগ্য প্রার্থীদের একই %কে ইতিবাচক রেট দেওয়া হয়। ইতিবাচক ফলাফলের শ্রেণীবিভাগের ক্ষেত্রে এটি সাধারণত সুপারিশ করা হয়, যেমন ঋণের আবেদন, স্কুলে ভর্তি, বা বিষয়বস্তু বাচ্চাদের জন্য উপযুক্ত কিনা
ট্রু নেগেটিভ রেট/ফলস পজিটিভ রেট
- সংজ্ঞা: নেতিবাচক ডেটা পয়েন্টের শতাংশ (গ্রাউন্ড ট্রুথের লেবেল হিসাবে) যা সঠিকভাবে নেতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে, বা নেতিবাচক ডেটা পয়েন্টগুলির শতাংশ যা ভুলভাবে ইতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে
- এর সাথে সম্পর্কিত: সুযোগের সমতা (নেতিবাচক শ্রেণীর জন্য), যখন উপগোষ্ঠী জুড়ে সমান
- কখন এই মেট্রিকটি ব্যবহার করবেন: ন্যায্যতা ব্যবহার ক্ষেত্রে যেখানে ত্রুটির হার (বা ইতিবাচক হিসাবে কিছুকে ভুল শ্রেণিবদ্ধ করা) ইতিবাচক শ্রেণীবদ্ধ করার চেয়ে বেশি সম্পর্কিত। এটি অপব্যবহারের ক্ষেত্রে সবচেয়ে সাধারণ, যেখানে ইতিবাচকগুলি প্রায়ই নেতিবাচক কর্মের দিকে পরিচালিত করে। ফেসিয়াল অ্যানালাইসিস টেকনোলজির জন্যও এগুলি গুরুত্বপূর্ণ যেমন ফেস ডিটেকশন বা ফেস অ্যাট্রিবিউট
নির্ভুলতা এবং AUC
- এর সাথে সম্পর্কিত: অনুমানমূলক সমতা, যখন উপগোষ্ঠী জুড়ে সমান
- এই মেট্রিক্স কখন ব্যবহার করবেন: এমন ক্ষেত্রে যেখানে টাস্কের নির্ভুলতা সবচেয়ে গুরুত্বপূর্ণ (অগত্যা একটি নির্দিষ্ট দিক থেকে নয়), যেমন মুখ শনাক্তকরণ বা মুখ ক্লাস্টারিং
মিথ্যা আবিষ্কারের হার
- সংজ্ঞা: পজিটিভ হিসাবে শ্রেণীবদ্ধ সমস্ত ডেটা পয়েন্টের মধ্যে ভুলভাবে ইতিবাচক হিসাবে শ্রেণীবদ্ধ করা নেতিবাচক ডেটা পয়েন্টের শতাংশ (গ্রাউন্ড ট্রুথ হিসাবে লেবেল করা হয়েছে)। এটি PPV এর বিপরীতও
- এর সাথে সম্পর্কিত: ভবিষ্যদ্বাণীমূলক সমতা (এছাড়াও ক্রমাঙ্কন নামে পরিচিত), যখন উপগোষ্ঠী জুড়ে সমান
- এই মেট্রিকটি কখন ব্যবহার করবেন: এমন ক্ষেত্রে যেখানে সঠিক ইতিবাচক ভবিষ্যদ্বাণীর ভগ্নাংশ উপগোষ্ঠী জুড়ে সমান হওয়া উচিত
মিথ্যা বাদ হার
- সংজ্ঞা: নেতিবাচক হিসাবে শ্রেণীবদ্ধ সমস্ত ডেটা পয়েন্টের মধ্যে ধনাত্মক ডেটা পয়েন্টের শতাংশ (গ্রাউন্ড ট্রুথ লেবেল হিসাবে) যা ভুলভাবে নেতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে। এটিও এনপিভির বিপরীত
- এর সাথে সম্পর্কিত: ভবিষ্যদ্বাণীমূলক সমতা (এছাড়াও ক্রমাঙ্কন নামে পরিচিত), যখন উপগোষ্ঠী জুড়ে সমান
- এই মেট্রিকটি কখন ব্যবহার করবেন: এমন ক্ষেত্রে যেখানে সঠিক নেতিবাচক পূর্বাভাসের ভগ্নাংশ উপগোষ্ঠী জুড়ে সমান হওয়া উচিত
সামগ্রিক ফ্লিপ রেট / নেতিবাচক পূর্বাভাস ফ্লিপ রেট / নেতিবাচক থেকে ইতিবাচক পূর্বাভাস ফ্লিপ রেট
- সংজ্ঞা: প্রদত্ত বৈশিষ্ট্যে পরিচয় বৈশিষ্ট্য পরিবর্তন করা হলে শ্রেণীবিভাগকারী একটি ভিন্ন ভবিষ্যদ্বাণী দেয় এমন সম্ভাবনা।
- এর সাথে সম্পর্কিত: বিপরীত ন্যায্যতা
- এই মেট্রিকটি কখন ব্যবহার করবেন: উদাহরণে উল্লেখ করা সংবেদনশীল বৈশিষ্ট্যগুলি সরানো বা প্রতিস্থাপন করা হলে মডেলের ভবিষ্যদ্বাণী পরিবর্তন হয় কিনা তা নির্ধারণ করার সময়৷ যদি তা হয়, তাহলে টেনসরফ্লো মডেল রিমিডিয়েশন লাইব্রেরির মধ্যে কাউন্টারফ্যাকচুয়াল লগিট পেয়ারিং কৌশল ব্যবহার করার কথা বিবেচনা করুন।
ফ্লিপ কাউন্ট / ইতিবাচক থেকে নেতিবাচক ভবিষ্যদ্বাণী ফ্লিপ কাউন্ট / নেতিবাচক থেকে ইতিবাচক পূর্বাভাস ফ্লিপ কাউন্ট *
- সংজ্ঞা: প্রদত্ত উদাহরণে পরিচয় শব্দটি পরিবর্তিত হলে শ্রেণীবিভাগকারী কতবার একটি ভিন্ন ভবিষ্যদ্বাণী দেয়।
- এর সাথে সম্পর্কিত: বিপরীত ন্যায্যতা
- এই মেট্রিকটি কখন ব্যবহার করবেন: উদাহরণে উল্লেখ করা সংবেদনশীল বৈশিষ্ট্যগুলি সরানো বা প্রতিস্থাপন করা হলে মডেলের ভবিষ্যদ্বাণী পরিবর্তন হয় কিনা তা নির্ধারণ করার সময়৷ যদি তা হয়, তাহলে টেনসরফ্লো মডেল রিমিডিয়েশন লাইব্রেরির মধ্যে কাউন্টারফ্যাকচুয়াল লগিট পেয়ারিং কৌশল ব্যবহার করার কথা বিবেচনা করুন।
কোন মেট্রিক্স নির্বাচন করতে হবে তার উদাহরণ
- একটি ক্যামেরা অ্যাপে মুখ সনাক্ত করতে পদ্ধতিগতভাবে ব্যর্থ হলে নির্দিষ্ট ব্যবহারকারী গোষ্ঠীর জন্য একটি নেতিবাচক ব্যবহারকারীর অভিজ্ঞতা হতে পারে। এই ক্ষেত্রে, একটি মুখ শনাক্তকরণ সিস্টেমে মিথ্যা নেতিবাচকগুলি পণ্যের ব্যর্থতার দিকে পরিচালিত করতে পারে, যখন একটি মিথ্যা ইতিবাচক (একটি না থাকলে একটি মুখ সনাক্ত করা) ব্যবহারকারীর কাছে সামান্য বিরক্তির কারণ হতে পারে৷ এইভাবে, এই ব্যবহারের ক্ষেত্রে মিথ্যা নেতিবাচক হারের মূল্যায়ন এবং হ্রাস করা গুরুত্বপূর্ণ।
- একটি সংযম ব্যবস্থায় নির্দিষ্ট লোকের পাঠ্য মন্তব্যগুলিকে অন্যায়ভাবে "স্প্যাম" বা "উচ্চ বিষাক্ততা" হিসাবে চিহ্নিত করার ফলে কিছু ভয়েস নীরব হয়ে যায়। একদিকে, একটি উচ্চ মিথ্যা ইতিবাচক হার অন্যায্য সেন্সরশিপের দিকে নিয়ে যায়। অন্যদিকে, একটি উচ্চ মিথ্যা নেতিবাচক হার নির্দিষ্ট গোষ্ঠী থেকে বিষাক্ত সামগ্রীর বিস্তার ঘটাতে পারে, যা ব্যবহারকারীর ক্ষতি করতে পারে এবং সেই গোষ্ঠীগুলির জন্য একটি প্রতিনিধিত্বমূলক ক্ষতি গঠন করতে পারে। সুতরাং, নির্ভুলতা বা AUC-এর মতো সব ধরনের ত্রুটি বিবেচনায় নেওয়া মেট্রিক ছাড়াও উভয় মেট্রিকই বিবেচনা করা গুরুত্বপূর্ণ।
আপনি যে মেট্রিকগুলি খুঁজছেন তা দেখতে পাচ্ছেন না?
আপনার নিজস্ব কাস্টম মেট্রিক যোগ করতে এখানে ডকুমেন্টেশন অনুসরণ করুন.
চূড়ান্ত নোট
দুটি গ্রুপের মধ্যে মেট্রিকের একটি ব্যবধান একটি চিহ্ন হতে পারে যে আপনার মডেলে অন্যায্য skews থাকতে পারে । আপনার ব্যবহারের ক্ষেত্রে আপনার ফলাফলগুলিকে ব্যাখ্যা করা উচিত। যাইহোক, প্রথম লক্ষণ যে আপনি ব্যবহারকারীদের একটি সেটের সাথে অন্যায়ভাবে আচরণ করছেন তা হল যখন ব্যবহারকারীদের সেই সেট এবং আপনার সামগ্রিকতার মধ্যে মেট্রিক্স উল্লেখযোগ্যভাবে আলাদা। এই পার্থক্যগুলি দেখার সময় আত্মবিশ্বাসের ব্যবধানের জন্য অ্যাকাউন্ট নিশ্চিত করুন। যখন আপনার একটি নির্দিষ্ট স্লাইসে খুব কম নমুনা থাকে, তখন মেট্রিক্সের মধ্যে পার্থক্য সঠিক নাও হতে পারে।
ন্যায্যতা সূচকে সমতা অর্জনের অর্থ এই নয় যে মডেলটি ন্যায্য। সিস্টেমগুলি অত্যন্ত জটিল, এবং প্রদত্ত মেট্রিকগুলির একটিতে (বা এমনকি সমস্ত) সমতা অর্জন করা ন্যায্যতার গ্যারান্টি দিতে পারে না৷
ন্যায্যতা মূল্যায়ন উন্নয়ন প্রক্রিয়া এবং পোস্ট-লঞ্চ (লঞ্চের আগের দিন নয়) জুড়ে চালানো উচিত। ঠিক যেমন আপনার পণ্যের উন্নতি একটি চলমান প্রক্রিয়া এবং ব্যবহারকারী এবং বাজার প্রতিক্রিয়ার উপর ভিত্তি করে সমন্বয় সাপেক্ষে, আপনার পণ্যকে ন্যায্য এবং ন্যায়সঙ্গত করে তোলার জন্য চলমান মনোযোগ প্রয়োজন। যেহেতু মডেলের বিভিন্ন দিক পরিবর্তন হয়, যেমন প্রশিক্ষণের ডেটা, অন্যান্য মডেলের ইনপুট বা ডিজাইন নিজেই, ন্যায্যতা মেট্রিক্স পরিবর্তন হতে পারে। "বারটি সাফ করা" একবার নিশ্চিত করার জন্য যথেষ্ট নয় যে সমস্ত ইন্টারঅ্যাক্টিং উপাদান সময়ের সাথে অক্ষত রয়েছে।
বিরল, দূষিত উদাহরণের জন্য প্রতিপক্ষের পরীক্ষা করা উচিত। ন্যায্যতা মূল্যায়ন প্রতিপক্ষের পরীক্ষা প্রতিস্থাপন করার জন্য নয়। বিরল, লক্ষ্যযুক্ত উদাহরণগুলির বিরুদ্ধে অতিরিক্ত প্রতিরক্ষা অত্যন্ত গুরুত্বপূর্ণ কারণ এই উদাহরণগুলি সম্ভবত প্রশিক্ষণ বা মূল্যায়ন ডেটাতে প্রকাশ পাবে না।