Aperçu

MinDiff est une technique de correction de modèle qui cherche à égaliser deux distributions. En pratique, il peut être utilisé pour équilibrer les taux d’erreur entre différentes tranches de vos données en pénalisant les différences de distribution.

En règle générale, vous appliquez MinDiff lorsque vous essayez de garantir l'équité du groupe, par exemple en minimisant la différence de taux de faux positifs (FPR) ou de taux de faux négatifs (FNR) entre une tranche de données appartenant à une classe sensible et une tranche plus performante. Pour une discussion approfondie sur les mesures d’équité, consultez la littérature sur ce sujet. 1 2 3

Comment fonctionne MinDiff ?

Étant donné deux ensembles d'exemples de notre ensemble de données, MinDiff pénalise le modèle lors de l'entraînement en raison des différences dans la distribution des scores entre les deux ensembles. Moins les deux ensembles sont basés sur les scores de prédiction, plus la pénalité qui sera appliquée est faible.

La pénalité est appliquée en ajoutant un composant à la perte que le modèle utilise pour la formation. Cela peut être considéré comme une mesure de la différence de distribution des prédictions du modèle. Au fur et à mesure que le modèle s'entraîne, il tente de minimiser la pénalité en rapprochant les distributions, comme le montrent les graphiques ci-dessous.

Graphique de comparaison MinDiff

L'application de MinDiff peut entraîner des compromis en termes de performances sur la tâche d'origine. MinDiff peut être efficace sans détériorer les performances au-delà des besoins du produit, mais la décision d'équilibrer entre performances et efficacité de MinDiff doit être prise délibérément par le propriétaire du produit. Pour obtenir des exemples montrant comment implémenter MinDiff, consultez le cahier d'étude de cas de remédiation de modèle .

Ressources