MinDiff — это метод исправления модели, целью которого является выравнивание двух распределений. На практике его можно использовать для балансировки частоты ошибок в разных фрагментах данных путем штрафования за различия в распределении.
Обычно вы применяете MinDiff, когда пытаетесь обеспечить групповую справедливость, например, минимизируя разницу в частоте ложных срабатываний (FPR) или частоте ложных отрицательных результатов (FNR) между срезом данных, принадлежащим к конфиденциальному классу, и более эффективным срезом. Для более подробного обсуждения показателей справедливости просмотрите литературу по этому вопросу. 1 2 3
Как работает Миндифф?
Учитывая два набора примеров из нашего набора данных, MinDiff наказывает модель во время обучения за различия в распределении оценок между двумя наборами. Чем менее различимы два набора на основе оценок прогнозирования, тем меньший штраф будет применен.
Штраф применяется путем добавления компонента к потерям, который модель использует для обучения. Его можно рассматривать как измерение разницы в распределении прогнозов модели. По мере обучения модели она пытается минимизировать штраф, сближая распределения, как показано на графиках ниже.
Применение MinDiff может привести к снижению производительности исходной задачи. MinDiff может быть эффективным, не ухудшая производительность сверх потребностей продукта, но решение о балансе между производительностью и эффективностью MinDiff должно приниматься владельцем продукта сознательно. Примеры, показывающие, как реализовать MinDiff, см. в блокноте с практическим примером исправления модели .
Ресурсы
Учебное пособие по применению MinDiff к модели классификации текста см. в блокноте MinDiff Keras .
Сообщение о MinDiff в блоге TensorFlow см. в разделе Применение MinDiff для улучшения сообщения в блоге модели .
Полную библиотеку Model Remediation можно найти в репозитории Model-Remediation на Github .
Дворк К., Хардт М., Питасси Т., Рейнгольд О., Земель Р. (2011). Справедливость через осведомленность. ↩
Хардт М., Прайс Э., Сребро Н. (2016). Равенство возможностей в контролируемом обучении. ↩
Чулдехова, А. (2016). Справедливое предсказание с разным воздействием: исследование предвзятости в инструментах прогнозирования рецидивизма. ↩