Couplage logit contrefactuel pour la correction du modèle

Le couplage logit contrefactuel (CLP) est une technique de la bibliothèque de correction de modèles TensorFlow qui cherche à garantir que la prédiction d'un modèle ne change pas lorsqu'un attribut sensible référencé dans un exemple est supprimé ou remplacé. Par exemple, dans un classificateur de toxicité, des exemples tels que « Je suis un homme » et « Je suis une lesbienne » ne devraient pas donner lieu à une prédiction de toxicité différente.

Pour une discussion approfondie sur ce sujet, voir la recherche sur l'équité contrefactuelle , l'appariement logit contradictoire et l'appariement logit contrefactuel .

Quand devriez-vous utiliser le couplage logit contrefactuel ?

CLP traite le scénario dans lequel une modification d'un attribut sensible référencé dans une fonctionnalité modifie la prédiction (alors que la prédiction n'aurait pas dû changer). Ce faisant, il tente de répondre à la question : ce modèle est-il susceptible de modifier sa prédiction en fonction de la seule présence d'un attribut d'identité ? Voir le document de recherche pour plus de détails sur l’équité contrefactuelle.

Ce problème a été constaté dans l' API Perspective , un outil de ML utilisé par les développeurs et les éditeurs pour analyser le contenu des commentaires à la recherche de texte potentiellement offensant ou toxique . L'API Perspective prend le texte du commentaire en entrée et renvoie un score de 0 à 1 comme indication de la probabilité que le commentaire soit toxique. Par exemple, un commentaire tel que « Vous êtes un idiot » peut recevoir un score de probabilité de 0,8 pour la toxicité, indiquant la probabilité qu'un lecteur perçoive ce commentaire comme toxique.

Après le lancement initial de l'API Perspective, les utilisateurs externes ont découvert une corrélation positive entre les termes d'identité contenant des informations sur la race ou l'orientation sexuelle et le score de toxicité prévu. Par exemple, l'expression « Je suis lesbienne » a reçu une note de 0,51, tandis que « Je suis un homme » a reçu une note inférieure de 0,2. Dans ce cas, les termes identitaires n’étaient pas utilisés de manière péjorative, il ne devrait donc pas y avoir une différence aussi significative dans le score. Pour plus d'informations sur l'API Perspective, consultez l'article de blog sur les biais involontaires et les termes d'identité .

Comment puis-je mesurer l’effet du couplage logit contrefactuel ?

Si vous avez évalué votre modèle d'apprentissage automatique et déterminé que les modifications des prédictions dues à des modifications d'attributs sensibles spécifiques seraient nuisibles, vous devez alors mesurer la prévalence de ce problème. Dans le cas d'un classificateur binaire ou multi-classes, un flip est défini comme un classificateur donnant une décision différente (comme changer une prédiction de toxique à non toxique) lorsque l'attribut sensible référencé dans l'exemple change. Lors de l'évaluation de la prévalence des retournements , vous pouvez examiner le nombre de retournements et le taux de retournements . En prenant en compte le préjudice potentiel causé à l'utilisateur par un retournement et la fréquence à laquelle ces retournements se produisent, vous pouvez déterminer s'il s'agit d'un problème qui doit être résolu en appliquant le CLP. Pour plus d'informations sur ces mesures, reportez-vous au guide Indicateurs d'équité .

Sur quels types de modèles puis-je appliquer le couplage logit contrefactuel ?

Cette technique peut être utilisée avec des classificateurs binaires et multiclasses de différents types de données telles que du texte, des images et des vidéos.

Quand le couplage Logit contrefactuel ne me convient-il pas ?

Le CLP n’est pas la bonne méthode pour toutes les situations. Par exemple, il n’est pas pertinent si la présence ou l’absence d’un terme d’identité modifie légitimement la prédiction du classificateur. Cela peut être le cas si le classificateur vise à déterminer si la fonctionnalité fait référence à un groupe d'identité particulier. Cette méthode est également moins impactante si la corrélation involontaire entre le résultat du classificateur et le groupe d'identité n'a pas de répercussions négatives sur l'utilisateur.

CLP est utile pour tester si un modèle de langage ou un classificateur de toxicité modifie sa sortie de manière injuste (par exemple en classant un morceau de texte comme toxique) simplement parce que des termes comme « Noir », « gay », « Musulman » sont présents dans le texte. texte. CLP n’est pas destiné à faire des prédictions sur des individus, par exemple en manipulant l’identité d’un individu. Voir cet article pour une discussion plus détaillée.

Il est important de garder à l’esprit que le CLP est une technique du kit d’outils d’IA responsable spécialement conçue pour résoudre les situations dans lesquelles des attributs sensibles référencés dans des fonctionnalités modifient la prédiction. En fonction de votre modèle et de votre cas d'utilisation, il peut également être important de déterminer s'il existe des écarts de performance pour les groupes historiquement marginalisés, d'autant plus que le CLP peut affecter les performances du groupe. Cela peut être évalué avec des indicateurs d'équité et résolu par MinDiff qui se trouve également dans la bibliothèque de correction de modèles TensorFlow.

Vous devez également vous demander si votre produit constitue une utilisation appropriée pour l’apprentissage automatique. Si tel est le cas, votre flux de travail d'apprentissage automatique doit être conçu selon les pratiques recommandées connues, telles qu'une tâche modèle bien définie et des besoins clairs en matière de produit.

Comment fonctionne le couplage logit contrefactuel ?

CLP ajoute une perte au modèle d'origine qui est fournie par le logit associant un exemple original et contrefactuel à partir d'un ensemble de données. En calculant la différence entre les deux valeurs, vous pénalisez les différences des termes sensibles qui entraînent une modification de la prédiction de votre classificateur. Ce travail était basé sur des recherches sur l'appariement logit contradictoire et l'appariement logit contrefactuel .