Quand dois-je utiliser MinDiff ?
Appliquez MinDiff dans les cas où votre modèle fonctionne généralement bien, mais produit plus fréquemment des erreurs nuisibles sur des exemples appartenant à un groupe sensible, et où vous souhaitez combler l'écart de performances. Les groupes d'intérêt sensibles peuvent varier en fonction de votre cas d'utilisation, mais incluent souvent des classes protégées, telles que la race, la religion, le sexe, l'orientation sexuelle, etc. Tout au long de ce document, nous utiliserons « groupe sensible » pour faire référence à tout ensemble d'exemples appartenant à une classe protégée.
Il existe deux conditions principales pour utiliser MinDiff pour traiter des tranches de données sous-performantes :
- Vous avez déjà réglé et évalué votre modèle, en identifiant les métriques qui montrent des tranches de données sous-performantes. Cela doit être fait avant d’appliquer la correction du modèle.
- Vous disposez ou pouvez obtenir un nombre suffisant d’exemples étiquetés pertinents appartenant au groupe sous-performant (plus de détails ci-dessous).
MinDiff est l'une des nombreuses techniques permettant de remédier aux comportements inégaux. En particulier, cela peut être un bon choix lorsque vous essayez d'égaliser directement les performances entre les groupes. MinDiff peut être utilisé conjointement avec d'autres approches, telles que l'augmentation des données et autres, ce qui peut conduire à de meilleurs résultats. Cependant, si vous devez prioriser la technique dans laquelle investir, vous devez le faire en fonction des besoins de votre produit.
Lorsque vous appliquez MinDiff, vous pouvez constater une dégradation ou un léger changement des performances de vos groupes les plus performants, à mesure que vos groupes sous-performants s'améliorent. Ce compromis est attendu et doit être évalué dans le contexte des exigences de votre produit. Dans la pratique, nous avons souvent vu que MinDiff ne fait pas chuter les tranches les plus performantes en dessous des niveaux acceptables, mais cela est spécifique à l'application et une décision qui doit être prise par le propriétaire du produit.
Sur quels types de modèles puis-je appliquer MinDiff ?
MinDiff s'est avéré toujours efficace lorsqu'il est appliqué aux classificateurs binaires. L'adaptation de la méthode à d'autres applications est possible, mais n'a pas été entièrement testée. Certains travaux ont été réalisés pour montrer le succès des tâches de multi-classification et de classement 1 mais toute utilisation de MinDiff sur ces types de modèles ou sur d'autres doit être considérée comme expérimentale.
Sur quelles métriques puis-je appliquer MinDiff ?
MinDiff peut être une bonne solution lorsque la métrique que vous essayez d'égaliser entre les groupes est le taux de faux positifs (FPR) ou le taux de faux négatifs (FNR) , mais cela peut fonctionner pour d'autres métriques. En règle générale, MinDiff peut fonctionner lorsque la métrique que vous ciblez résulte de différences dans les distributions de scores entre les exemples appartenant à un groupe sensible et les exemples n'appartenant pas à un groupe sensible.
Construire votre ensemble de données MinDiff
Lorsque vous vous préparez à vous entraîner avec MinDiff, vous devrez préparer trois ensembles de données distincts. Comme pour la formation régulière, vos ensembles de données MinDiff doivent être représentatifs des utilisateurs servis par votre modèle. MinDiff peut fonctionner sans cela, mais vous devez faire preuve d'une extrême prudence dans de tels cas.
En supposant que vous essayiez d'améliorer le FPR de votre modèle pour des exemples appartenant à une classe sensible, vous aurez besoin de :
- L'ensemble de formation d'origine : l'ensemble de données d'origine qui a été utilisé pour entraîner votre modèle de base.
- L'ensemble sensible MinDiff - Un ensemble de données d'exemples appartenant à la classe sensible avec uniquement des étiquettes de vérité terrain négatives. Ces exemples seront utilisés uniquement pour calculer la perte MinDiff.
- L'ensemble non sensible MinDiff - Un ensemble de données d'exemples n'appartenant pas à la classe sensible avec uniquement des étiquettes de vérité terrain négatives. Ces exemples seront utilisés uniquement pour calculer la perte MinDiff.
Lorsque vous utiliserez la bibliothèque, vous combinerez ces trois ensembles de données en un seul ensemble de données, qui servira de nouvel ensemble de formation.
Choisir des exemples pour MinDiff
Dans l'exemple ci-dessus, il a peut-être semblé contre-intuitif de distinguer des ensembles d'exemples étiquetés négativement si vous êtes principalement préoccupé par les disparités dans le taux de faux positifs . Cependant, rappelez-vous qu’une prédiction faussement positive provient d’un exemple étiqueté négativement et incorrectement classé comme positif.
Lors de la collecte de vos données pour MinDiff, vous devez choisir des exemples où la disparité des performances est évidente. Dans notre exemple ci-dessus, cela signifiait choisir des exemples étiquetés négativement pour aborder la FPR. Si nous avions voulu cibler le RNR, nous aurions dû choisir des exemples positivement étiquetés.
De combien de données ai-je besoin ?
Bonne question : cela dépend de votre cas d'utilisation ! En fonction de l'architecture de votre modèle, de la distribution des données et de la configuration MinDiff, la quantité de données nécessaire peut varier considérablement. Dans des applications précédentes, nous avons vu MinDiff fonctionner correctement avec 5 000 exemples dans chaque ensemble de formation MinDiff (ensembles 2 et 3 dans la section précédente). Avec moins de données, il existe un risque accru de baisse des performances, mais cela peut être minime ou acceptable dans les limites de vos contraintes de production. Après avoir appliqué MinDiff, vous devrez évaluer minutieusement vos résultats pour garantir des performances acceptables. S'ils ne sont pas fiables ou ne répondent pas aux attentes en matière de performances, vous pouvez quand même envisager de collecter davantage de données.
Quand MinDiff ne me convient-il pas ?
MinDiff est une technique puissante qui peut fournir des résultats impressionnants, mais cela ne signifie pas que c'est la bonne méthode pour toutes les situations. L’appliquer au hasard ne garantit pas que vous obtiendrez une solution adéquate.
Au-delà des exigences évoquées ci-dessus, il existe des cas où MinDiff peut être techniquement réalisable, mais pas adapté. Vous devez toujours concevoir votre flux de travail ML selon les pratiques recommandées connues. Par exemple, si votre tâche de modèle est mal définie, si le produit n'est pas clair ou si vos exemples d'étiquettes sont trop biaisés, vous devez donner la priorité à la résolution de ces problèmes. De même, si vous n'avez pas de définition claire du groupe sensible, ou si vous ne parvenez pas à déterminer de manière fiable si les exemples appartiennent au groupe sensible, vous ne pourrez pas appliquer efficacement MinDiff.
À un niveau supérieur, vous devez toujours vous demander si votre produit constitue une utilisation appropriée pour le ML. Si tel est le cas, considérez les vecteurs potentiels de préjudice pour les utilisateurs que cela crée. La poursuite d’un blanchiment d’argent responsable est un effort à multiples facettes qui vise à anticiper un large éventail de préjudices potentiels ; MinDiff peut aider à atténuer certains de ces problèmes, mais tous les résultats méritent un examen attentif.
1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). Équité dans le classement des recommandations grâce à des comparaisons par paires.