Fairness Indicators ابزاری مفید برای ارزیابی طبقهبندیکنندههای باینری و چند کلاسه برای انصاف است. در نهایت، امیدواریم این ابزار را با مشارکت همه شما گسترش دهیم تا ملاحظات بیشتری را ارزیابی کنیم.
به خاطر داشته باشید که ارزیابی کمی تنها بخشی از ارزیابی یک تجربه کاربری گسترده تر است. با فکر کردن در مورد زمینه های مختلفی که کاربر ممکن است محصول شما را تجربه کند، شروع کنید. انتظار می رود محصول شما به انواع مختلف کاربران خدمت کند؟ چه کسی دیگری ممکن است تحت تأثیر این تجربه قرار گیرد؟
هنگام در نظر گرفتن تأثیر هوش مصنوعی بر مردم، مهم است که همیشه به یاد داشته باشید که جوامع انسانی بسیار پیچیده هستند! درک افراد، و هویت اجتماعی، ساختارهای اجتماعی و نظامهای فرهنگی آنها، هر یک به تنهایی زمینههای عظیمی از تحقیقات آزاد هستند. پیچیدگیهای تفاوتهای بین فرهنگی در سرتاسر جهان را کنار بگذارید، و حتی به دست آوردن جای پایی در درک تأثیرات اجتماعی میتواند چالشبرانگیز باشد. در صورت امکان، توصیه میشود با کارشناسان حوزه مناسب، که ممکن است شامل دانشمندان علوم اجتماعی، زبانشناسان اجتماعی، و انسانشناسان فرهنگی، و همچنین با اعضای جمعیتهایی که فناوری در آنها به کار گرفته میشود، مشورت کنید.
یک مدل واحد، به عنوان مثال، مدل سمیت که ما در colab مثال استفاده می کنیم، می تواند در زمینه های مختلف استفاده شود. برای مثال، یک مدل سمیت که در یک وبسایت برای فیلتر کردن نظرات توهینآمیز به کار میرود، یک مورد استفاده بسیار متفاوت از مدلی است که در یک نمونه رابط کاربری وب استفاده میشود، جایی که کاربران میتوانند جملهای را تایپ کنند و ببینند مدل چه امتیازی میدهد. بسته به مورد استفاده، و اینکه کاربران چگونه پیشبینی مدل را تجربه میکنند، محصول شما خطرات، اثرات و فرصتهای متفاوتی خواهد داشت و ممکن است بخواهید نگرانیهای مربوط به عدالت را ارزیابی کنید.
سوالات بالا پایه و اساس این است که چه ملاحظات اخلاقی، از جمله انصاف، ممکن است بخواهید هنگام طراحی و توسعه محصول مبتنی بر ML خود در نظر بگیرید. این سؤالات همچنین انگیزه می دهد که کدام معیارها و کدام گروه از کاربران را باید برای ارزیابی از این ابزار استفاده کنید.
قبل از غواصی بیشتر، در اینجا سه منبع توصیه شده برای شروع وجود دارد:
- کتاب راهنمای افراد + هوش مصنوعی برای طراحی هوش مصنوعی انسان محور: این کتاب راهنما منبعی عالی برای سوالات و جنبه هایی است که هنگام طراحی یک محصول مبتنی بر یادگیری ماشینی باید در نظر داشته باشید. در حالی که ما این کتاب راهنما را با در نظر گرفتن طراحان ایجاد کردیم، بسیاری از اصول به پاسخگویی به سوالاتی مانند آنچه در بالا مطرح شد کمک می کند.
- درسهای آموختهشده ما از انصاف : این سخنرانی در Google I/O درسهایی را که در هدف خود برای ساخت و طراحی محصولات فراگیر آموختهایم، مورد بحث قرار میدهد.
- دوره تصادف ML: انصاف : دوره ML Crash دارای یک بخش 70 دقیقه ای است که به شناسایی و ارزیابی نگرانی های مربوط به عدالت اختصاص دارد.
بنابراین، چرا به تک تک برش ها نگاه می کنیم؟ ارزیابی بر روی برش های فردی مهم است زیرا معیارهای کلی قوی می تواند عملکرد ضعیف گروه های خاص را پنهان کند. به طور مشابه، عملکرد خوب برای یک معیار خاص (دقت، AUC) همیشه به عملکرد قابل قبول برای سایر معیارها (نرخ مثبت کاذب، نرخ منفی کاذب) که در ارزیابی فرصت و آسیب برای کاربران به یک اندازه مهم هستند، ترجمه نمی شود.
در بخشهای زیر برخی از جنبههایی که باید در نظر گرفته شود، توضیح داده میشود.
بر اساس کدام گروه ها باید برش داد؟
به طور کلی، یک روش خوب این است که به تعداد گروه هایی که ممکن است تحت تأثیر محصول شما قرار گیرند، تقسیم بندی کنید، زیرا هرگز نمی دانید که چه زمانی ممکن است عملکرد یکی از دیگری متفاوت باشد. با این حال، اگر مطمئن نیستید، در مورد کاربران مختلفی که ممکن است با محصول شما درگیر باشند و اینکه چگونه ممکن است تحت تأثیر قرار گیرند فکر کنید. به ویژه، بخش هایی را در نظر بگیرید که مربوط به ویژگی های حساس مانند نژاد، قومیت، جنسیت، ملیت، درآمد، گرایش جنسی و وضعیت ناتوانی است.
اگر دادههای برچسبگذاری شده برای برشهایی را که میخواهم بررسی کنم نداشته باشم، چه میشود؟
سؤال خوبی بود. ما می دانیم که بسیاری از مجموعه داده ها دارای برچسب حقیقت پایه برای ویژگی های هویت فردی نیستند.
اگر در این موقعیت هستید، چند روش را توصیه می کنیم:
- مشخص کنید که آیا ویژگیهایی وجود دارد که ممکن است بینشی از عملکرد در گروهها به شما بدهد. برای مثال، جغرافیا اگرچه معادل قومیت و نژاد نیست، اما ممکن است به شما کمک کند تا هر گونه الگوی متفاوت در عملکرد را کشف کنید.
- مشخص کنید که آیا مجموعه داده های عمومی نماینده ای وجود دارد که ممکن است به خوبی با مشکل شما مطابقت داشته باشد. میتوانید مجموعهای از مجموعه دادههای متنوع و فراگیر را در سایت هوش مصنوعی گوگل بیابید، که شامل Project Respect ، Inclusive Images ، Open Images Extended و غیره است.
- از قوانین یا طبقهبندیکنندهها، در صورت لزوم، برای برچسبگذاری دادههای خود با ویژگیهای سطح سطحی هدف استفاده کنید. به عنوان مثال، می توانید به متن برچسب بزنید که آیا عبارت هویتی در جمله وجود دارد یا خیر. به خاطر داشته باشید که طبقهبندیکنندهها چالشهای خاص خود را دارند و اگر مراقب نباشید، ممکن است لایه دیگری از سوگیری را نیز معرفی کنید. در مورد اینکه طبقه بندی کننده شما واقعاً چه چیزی را طبقه بندی می کند روشن باشید. به عنوان مثال، یک طبقهبندی سن روی تصاویر در واقع سن درک شده را طبقهبندی میکند. علاوه بر این، در صورت امکان، از ویژگیهای سطح سطحی استفاده کنید که میتوانند به طور عینی در دادهها شناسایی شوند. برای مثال، ساختن یک طبقهبندی کننده تصویر برای نژاد یا قومیت توصیه نادرست است، زیرا اینها ویژگیهای بصری نیستند که بتوان در یک تصویر تعریف کرد. یک طبقهبندیکننده احتمالاً از پروکسیها یا کلیشهها استفاده میکند. در عوض، ساختن یک طبقهبندی کننده برای رنگ پوست ممکن است راه مناسبتری برای برچسبگذاری و ارزیابی تصویر باشد. در نهایت، از دقت بالا برای طبقه بندی کننده هایی که چنین ویژگی هایی را برچسب گذاری می کنند، اطمینان حاصل کنید.
- داده های نماینده بیشتری را پیدا کنید که دارای برچسب هستند
همیشه مطمئن شوید که روی مجموعه دادههای متعدد و متنوع ارزیابی میکنید.
اگر دادههای ارزیابی شما بهاندازه کافی معرف پایگاه کاربریتان یا انواع دادههایی که احتمالاً با آنها مواجه میشوند نیست، ممکن است به معیارهای انصاف فریبنده خوبی دست پیدا کنید. به طور مشابه، عملکرد مدل بالا در یک مجموعه داده، عملکرد بالا را در سایر داده ها تضمین نمی کند.
به خاطر داشته باشید که زیر گروه ها همیشه بهترین راه برای طبقه بندی افراد نیستند.
مردم چند بعدی هستند و به بیش از یک گروه تعلق دارند، حتی در یک بعد واحد - فردی را در نظر بگیرید که چند نژادی است یا به چند گروه نژادی تعلق دارد. همچنین، در حالی که معیارهای کلی برای یک گروه نژادی خاص ممکن است منصفانه به نظر برسند، تعاملات خاصی مانند نژاد و جنسیت با هم ممکن است سوگیری ناخواسته را نشان دهند. علاوه بر این، بسیاری از زیر گروه ها دارای مرزهای فازی هستند که به طور مداوم در حال ترسیم مجدد هستند.
چه زمانی برش های کافی را آزمایش کرده ام و چگونه می توانم بدانم کدام برش ها را آزمایش کنم؟
ما تصدیق میکنیم که تعداد زیادی گروه یا برش وجود دارد که ممکن است برای آزمایش مرتبط باشند، و در صورت امکان، برش دادن و ارزیابی طیف متنوع و گستردهای از برشها و سپس غواصی عمیق را توصیه میکنیم که در آن فرصتهایی برای بهبود پیدا میکنید. همچنین مهم است که اذعان کنید که حتی اگر ممکن است نگرانیهایی را در بخشهایی که آزمایش کردهاید مشاهده نکنید، این بدان معنا نیست که محصول شما برای همه کاربران کار میکند، و دریافت بازخورد و آزمایشهای متنوع از کاربران برای اطمینان از شناسایی مداوم موارد جدید مهم است. فرصت ها.
برای شروع، توصیه میکنیم در مورد استفاده خاص خود و روشهای مختلفی که کاربران ممکن است با محصول شما درگیر شوند، فکر کنید. چگونه ممکن است کاربران مختلف تجربیات متفاوتی داشته باشند؟ این برای برش هایی که باید ارزیابی کنید به چه معناست؟ جمع آوری بازخورد از کاربران مختلف نیز ممکن است برش های بالقوه برای اولویت بندی را برجسته کند.
کدام معیارها را انتخاب کنم؟
هنگام انتخاب معیارهایی که باید برای سیستم خود ارزیابی کنید، در نظر بگیرید که چه کسی مدل شما را تجربه خواهد کرد، چگونه آن را تجربه خواهد کرد و اثرات آن تجربه را در نظر بگیرید.
به عنوان مثال، مدل شما چگونه به افراد وقار یا استقلال بیشتری میدهد یا بر رفاه عاطفی، فیزیکی یا مالی آنها تأثیر مثبت میگذارد؟ در مقابل، چگونه پیشبینیهای مدل شما میتواند کرامت یا استقلال افراد را کاهش دهد یا بر رفاه عاطفی، فیزیکی یا مالی آنها تأثیر منفی بگذارد؟
به طور کلی، توصیه می کنیم تمام معیارهای عملکرد موجود خود را به عنوان تمرین خوب برش دهید. همچنین توصیه میکنیم معیارهای خود را در چند آستانه ارزیابی کنید تا بفهمید این آستانه چگونه میتواند بر عملکرد گروههای مختلف تأثیر بگذارد.
بهعلاوه، اگر برچسب پیشبینیشدهای وجود دارد که به طور یکنواخت «خوب» یا «بد» است، آنگاه نرخ پیشبینی آن برچسب را (برای هر زیرگروه) در نظر بگیرید. به عنوان مثال، یک برچسب "خوب" برچسبی است که پیشبینی آن به شخص اجازه دسترسی به برخی منابع را میدهد یا آنها را قادر میسازد تا عملی را انجام دهند.
معیارهای انصاف انتقادی برای طبقه بندی
هنگامی که به یک مدل طبقه بندی فکر می کنید، به اثرات خطاها فکر کنید (تفاوت بین برچسب واقعی "واقعیت پایه" و برچسب مدل). اگر برخی از خطاها ممکن است فرصت یا آسیب بیشتری برای کاربران شما ایجاد کند، مطمئن شوید که میزان این خطاها را در گروههای مختلف کاربران ارزیابی کردهاید. این نرخ های خطا در زیر، در معیارهایی که در حال حاضر توسط Fairness Indicators بتا پشتیبانی می شود، تعریف شده است.
در طول سال آینده، ما امیدواریم که مطالعات موردی موارد استفاده مختلف و معیارهای مرتبط با این موارد را منتشر کنیم تا بتوانیم زمانی که معیارهای مختلف مناسبترین هستند را برجسته کنیم.
معیارهای امروزی در Fairness Indicators موجود است
نرخ مثبت / نرخ منفی
- تعریف: درصد نقاط داده ای که مستقل از حقیقت زمینی به عنوان مثبت یا منفی طبقه بندی می شوند
- مربوط به: برابری جمعیتی و برابری نتایج، زمانی که در بین زیر گروه ها برابر باشد
- زمان استفاده از این معیار: موارد استفاده منصفانه که در آن داشتن درصد نهایی برابر از گروه ها مهم است
نرخ مثبت واقعی / نرخ منفی نادرست
- تعریف: درصدی از نقاط داده مثبت (همانطور که در حقیقت پایه برچسب گذاری شده است) که به درستی به عنوان مثبت طبقه بندی شده اند، یا درصد نقاط داده مثبت که به اشتباه به عنوان منفی طبقه بندی شده اند.
- مربوط به: برابری فرصت (برای طبقه مثبت)، زمانی که در بین زیر گروه ها برابر است
- زمان استفاده از این معیار: موارد استفاده منصفانه که در آن مهم است که درصد یکسانی از نامزدهای واجد شرایط در هر گروه مثبت ارزیابی شود. این معمولاً در موارد طبقهبندی نتایج مثبت، مانند درخواستهای وام، پذیرش مدرسه، یا اینکه آیا محتوا برای کودکان مناسب است توصیه میشود.
نرخ منفی واقعی / نرخ مثبت نادرست
- تعریف: درصدی از نقاط داده منفی (همانطور که در حقیقت پایه برچسب گذاری شده است) که به درستی به عنوان منفی طبقه بندی شده اند، یا درصد نقاط داده منفی که به اشتباه به عنوان مثبت طبقه بندی شده اند.
- مربوط به: برابری فرصت (برای طبقه منفی)، زمانی که در بین زیر گروه ها برابر است
- چه زمانی باید از این معیار استفاده کرد: مواردی که نرخ خطا (یا طبقهبندی اشتباه چیزی به عنوان مثبت) بیشتر از طبقهبندی موارد مثبت نگرانکننده است، استفاده منصفانه است. این در موارد سوء استفاده بیشتر رایج است، جایی که موارد مثبت اغلب منجر به اعمال منفی می شود. اینها همچنین برای فناوری های تحلیل چهره مانند تشخیص چهره یا ویژگی های چهره مهم هستند
دقت و AUC
- مربوط به: برابری پیش بینی کننده، زمانی که در بین زیر گروه ها برابر است
- زمان استفاده از این معیارها: مواردی که دقت کار بسیار مهم است (نه لزوماً در جهت معین)، مانند شناسایی چهره یا خوشهبندی چهره
نرخ کشف نادرست
- تعریف: درصدی از نقاط داده منفی (همانطور که در حقیقت پایه برچسب گذاری شده اند) که به اشتباه از بین تمام نقاط داده ای که به عنوان مثبت طبقه بندی شده اند به عنوان مثبت طبقه بندی شده اند. این نیز معکوس PPV است
- مربوط به: برابری پیشبینیکننده (همچنین به عنوان کالیبراسیون شناخته میشود)، زمانی که در بین زیر گروهها برابر باشد
- زمان استفاده از این معیار: مواردی که کسری از پیشبینیهای مثبت صحیح باید در میان گروههای فرعی برابر باشد.
نرخ حذف کاذب
- تعریف: درصدی از نقاط داده مثبت (همانطور که در حقیقت پایه برچسب گذاری شده اند) که به اشتباه از بین تمام نقاط داده طبقه بندی شده به عنوان منفی به عنوان منفی طبقه بندی شده اند. این نیز معکوس NPV است
- مربوط به: برابری پیشبینیکننده (همچنین به عنوان کالیبراسیون شناخته میشود)، زمانی که در بین زیر گروهها برابر باشد
- زمان استفاده از این معیار: مواردی که کسری از پیشبینیهای منفی صحیح باید در بین زیر گروهها برابر باشد.
نرخ چرخش کلی / نرخ چرخش پیشبینی مثبت به منفی / نرخ چرخش پیشبینی منفی به مثبت
- تعریف: احتمال اینکه طبقهبندیکننده پیشبینی متفاوتی را در صورت تغییر ویژگی هویت در یک ویژگی خاص ارائه دهد.
- مربوط به: انصاف خلاف واقع
- زمان استفاده از این معیار: هنگام تعیین اینکه آیا پیشبینی مدل با حذف یا جایگزینی ویژگیهای حساس اشارهشده در مثال تغییر میکند یا خیر. اگر اینطور است، از تکنیک جفت سازی Logit Counterfactual در کتابخانه Tensorflow Model Remediation استفاده کنید.
تعداد تلنگر / پیشبینی مثبت به منفی تعداد تلنگر / پیشبینی منفی به مثبت تعداد تلنگر *
- تعریف: تعداد دفعاتی که طبقهبندیکننده پیشبینی متفاوتی را در صورت تغییر عبارت هویت در یک مثال داده شده ارائه میدهد.
- مربوط به: انصاف خلاف واقع
- زمان استفاده از این معیار: هنگام تعیین اینکه آیا پیشبینی مدل با حذف یا جایگزینی ویژگیهای حساس اشارهشده در مثال تغییر میکند یا خیر. اگر اینطور است، از تکنیک جفت سازی Logit Counterfactual در کتابخانه Tensorflow Model Remediation استفاده کنید.
نمونه هایی از معیارهایی که باید انتخاب شوند
- ناتوانی سیستماتیک در تشخیص چهره در یک برنامه دوربین میتواند منجر به تجربه کاربری منفی برای گروههای کاربری خاص شود. در این حالت، منفی کاذب در یک سیستم تشخیص چهره ممکن است منجر به خرابی محصول شود، در حالی که مثبت کاذب (تشخیص چهره در زمانی که وجود ندارد) ممکن است کمی آزاردهنده برای کاربر باشد. بنابراین، ارزیابی و به حداقل رساندن نرخ منفی کاذب برای این مورد مهم است.
- علامتگذاری ناعادلانه کامنتهای متنی افراد خاص بهعنوان «هرزنامه» یا «سمیت بالا» در یک سیستم تعدیل منجر به خاموش شدن برخی صداها میشود. از یک طرف، نرخ مثبت کاذب بالا منجر به سانسور ناعادلانه می شود. از سوی دیگر، نرخ منفی کاذب بالا میتواند منجر به تکثیر محتوای سمی از گروههای خاص شود، که هم ممکن است به کاربر آسیب برساند و هم برای آن گروهها یک آسیب نمایشی باشد. بنابراین، علاوه بر معیارهایی که انواع خطاها مانند دقت یا AUC را در نظر می گیرند، باید در نظر گرفتن هر دو معیار مهم باشد.
معیارهایی را که به دنبال آن هستید نمی بینید؟
اسناد را در اینجا دنبال کنید تا معیارهای سفارشی خود را اضافه کنید.
یادداشت های پایانی
شکاف در متریک بین دو گروه می تواند نشانه این باشد که مدل شما ممکن است دارای انحرافات ناعادلانه باشد . شما باید نتایج خود را بر اساس مورد استفاده خود تفسیر کنید. با این حال، اولین نشانه ای که نشان می دهد ممکن است با یک سری از کاربران به طور غیرمنصفانه رفتار کنید، زمانی است که معیارهای بین آن دسته از کاربران و کلی شما به طور قابل توجهی متفاوت است. هنگام بررسی این تفاوتها، حتماً فواصل اطمینان را در نظر بگیرید. وقتی تعداد نمونههای کمی در یک برش خاص دارید، ممکن است تفاوت بین معیارها دقیق نباشد.
دستیابی به برابری بین گروهها در شاخصهای انصاف به معنای منصفانه بودن مدل نیست. سیستم ها بسیار پیچیده هستند و دستیابی به برابری در یکی (یا حتی همه) معیارهای ارائه شده نمی تواند انصاف را تضمین کند.
ارزیابی انصاف باید در طول فرآیند توسعه و پس از راه اندازی (نه روز قبل از راه اندازی) انجام شود. درست مانند بهبود محصول شما یک فرآیند مداوم و منوط به تعدیل بر اساس بازخورد کاربران و بازار است، عادلانه و عادلانه بودن محصول شما نیازمند توجه مداوم است. با تغییر جنبههای مختلف مدل، مانند دادههای آموزشی، ورودیهای مدلهای دیگر، یا خود طراحی، معیارهای انصاف احتمالاً تغییر میکنند. یک بار "پاک کردن نوار" برای اطمینان از اینکه همه اجزای تعاملی در طول زمان دست نخورده باقی مانده اند کافی نیست.
آزمایش خصمانه باید برای نمونه های نادر و مخرب انجام شود. ارزشیابی انصاف به معنای جایگزینی آزمایش خصمانه نیست. دفاع اضافی در برابر نمونه های نادر و هدفمند بسیار مهم است زیرا این نمونه ها احتمالاً در داده های آموزشی یا ارزیابی ظاهر نمی شوند.