Когда мне следует использовать MinDiff?
Применяйте MinDiff в тех случаях, когда ваша модель в целом работает хорошо, но чаще выдает вредные ошибки на примерах, принадлежащих к деликатной группе, и вы хотите устранить разрыв в производительности. Деликатные группы интересов могут различаться в зависимости от вашего варианта использования, но часто включают в себя защищенные классы, такие как раса, религия, пол, сексуальная ориентация и т. д. В этом документе мы будем использовать «конфиденциальную группу» для обозначения любого набора примеров, принадлежащих защищенному классу.
Существует два основных условия для использования MinDiff для устранения неэффективных фрагментов данных:
- Вы уже настроили и оценили свою модель, определив метрики, которые показывают неэффективные фрагменты данных. Это необходимо сделать перед применением исправления модели.
- У вас есть или вы можете получить достаточное количество соответствующих помеченных примеров, принадлежащих к неэффективной группе (подробнее ниже).
MinDiff — один из многих методов устранения неравенства в поведении. В частности, это может быть хорошим выбором, когда вы пытаетесь напрямую уравнять производительность между группами. MinDiff можно использовать в сочетании с другими подходами, такими как увеличение данных и другими, что может привести к лучшим результатам. Однако если вам необходимо определить приоритетность того, в какую технику инвестировать, вам следует делать это в соответствии с потребностями вашего продукта.
Применяя MinDiff, вы можете увидеть снижение или небольшое изменение производительности для наиболее эффективных групп по мере улучшения менее эффективных групп. Этот компромисс является ожидаемым и должен оцениваться в контексте требований к вашему продукту. На практике мы часто видели, что MinDiff не приводит к падению самых эффективных срезов ниже приемлемого уровня, но это зависит от приложения и решение должно приниматься владельцем продукта.
К каким типам моделей я могу применять MinDiff?
Было показано, что MinDiff неизменно эффективен при применении к двоичным классификаторам. Адаптация метода для других приложений возможна, но полностью не проверена. Была проделана некоторая работа, чтобы показать успех в задачах мультиклассификации и ранжирования 1 , но любое использование MinDiff на тех или иных типах моделей следует считать экспериментальным.
К каким метрикам я могу применить MinDiff?
MinDiff может быть хорошим решением, когда метрикой, которую вы пытаетесь уравнять между группами, является частота ложных срабатываний (FPR) или частота ложных отрицательных результатов (FNR) , но он может работать и для других метрик. Как правило, MinDiff может работать, когда целевой показатель является результатом различий в распределении оценок между примерами, принадлежащими к конфиденциальной группе, и примерами, не принадлежащими к конфиденциальной группе.
Создание набора данных MinDiff
При подготовке к обучению с MinDiff вам необходимо подготовить три отдельных набора данных. Как и при обычном обучении, ваши наборы данных MinDiff должны быть репрезентативными для пользователей, которых обслуживает ваша модель. MinDiff может работать и без этого, но в таких случаях следует проявлять особую осторожность.
Предполагая, что вы пытаетесь улучшить FPR вашей модели для примеров, принадлежащих к конфиденциальному классу, вам понадобится:
- Исходный обучающий набор — исходный набор данных, который использовался для обучения вашей базовой модели.
- Чувствительный набор MinDiff — набор данных примеров, принадлежащих к чувствительному классу, только с отрицательными метками истинности. Эти примеры будут использоваться только для расчета потерь MinDiff.
- Неконфиденциальный набор MinDiff — набор данных примеров, не принадлежащих к конфиденциальному классу, с только отрицательными метками истинности. Эти примеры будут использоваться только для расчета потерь MinDiff.
При использовании библиотеки вы объедините все три набора данных в один набор данных, который будет служить вашим новым обучающим набором.
Подбираем примеры для MinDiff
В приведенном выше примере может показаться нелогичным выделять наборы примеров с отрицательной маркировкой, если вас в первую очередь беспокоят различия в частоте ложноположительных результатов . Однако помните, что ложноположительный прогноз происходит из отрицательно помеченного примера, ошибочно классифицированного как положительный.
При сборе данных для MinDiff вам следует выбирать примеры, в которых разница в производительности очевидна. В нашем примере выше это означало выбор негативных примеров для решения проблемы FPR. Если бы мы были заинтересованы в нацеливании на FNR, нам пришлось бы выбирать примеры с положительной маркировкой.
Сколько данных мне нужно?
Хороший вопрос - это зависит от вашего варианта использования! В зависимости от архитектуры вашей модели, распределения данных и конфигурации MinDiff объем необходимых данных может значительно различаться. В прошлых приложениях мы видели, что MinDiff хорошо работает с 5000 примерами в каждом обучающем наборе MinDiff (наборы 2 и 3 в предыдущем разделе). При меньшем объеме данных увеличивается риск снижения производительности, но он может быть минимальным или приемлемым в пределах ваших производственных ограничений. После применения MinDiff вам необходимо будет тщательно оценить результаты, чтобы обеспечить приемлемую производительность. Если они ненадежны или не соответствуют ожиданиям по производительности, вы все равно можете рассмотреть возможность сбора дополнительных данных.
Когда MinDiff мне не подходит?
MinDiff — мощный метод, который может дать впечатляющие результаты, но это не значит, что он подходит для всех ситуаций. Его бессистемное применение не гарантирует, что вы достигнете адекватного решения.
Помимо требований, описанных выше, существуют случаи, когда MinDiff может быть технически осуществим, но непригоден. Вы всегда должны проектировать рабочий процесс машинного обучения в соответствии с известными рекомендуемыми практиками. Например, если задача вашей модели плохо определена, продукт неясен или этикетки в качестве примера слишком искажены, вам следует уделить первоочередное внимание решению этих проблем. Аналогичным образом, если у вас нет четкого определения конфиденциальной группы или вы не можете надежно определить, принадлежат ли примеры к конфиденциальной группе, вы не сможете эффективно применять MinDiff.
На более высоком уровне вы всегда должны учитывать, подходит ли ваш продукт вообще для ML. Если это так, рассмотрите потенциальные векторы причинения вреда пользователям. Стремление к ответственному отмыванию денег — это многогранная работа, цель которой — предвидеть широкий спектр потенциального вреда; MinDiff может помочь смягчить некоторые из этих проблем, но все результаты заслуживают тщательного рассмотрения.
1 Бойтель А., Чен Дж., Доши Т., Цянь Х., Вэй Л., Ву Ю., Хелдт Л., Чжао З., Хун Л., Чи Э., Гудроу, К. (2019). Справедливость ранжирования рекомендаций посредством парных сравнений.