Les indicateurs d'équité sont un outil utile pour évaluer l'équité des classificateurs binaires et multi-classes . À terme, nous espérons étendre cet outil, en partenariat avec vous tous, pour évaluer encore plus de considérations.
Gardez à l’esprit que l’évaluation quantitative n’est qu’une partie de l’évaluation d’une expérience utilisateur plus large. Commencez par réfléchir aux différents contextes dans lesquels un utilisateur peut découvrir votre produit. Quels sont les différents types d’utilisateurs que votre produit est censé servir ? Qui d’autre pourrait être affecté par l’expérience ?
Lorsque l’on considère l’impact de l’IA sur les humains, il est important de toujours se rappeler que les sociétés humaines sont extrêmement complexes ! Comprendre les gens, leurs identités sociales, leurs structures sociales et leurs systèmes culturels constituent chacun d’énormes domaines de recherche ouverts à part entière. Ajoutez à cela la complexité des différences interculturelles à travers le monde, et il peut être difficile de comprendre ne serait-ce que l’impact sociétal. Dans la mesure du possible, il est recommandé de consulter des experts du domaine approprié, qui peuvent inclure des spécialistes des sciences sociales, des sociolinguistes et des anthropologues culturels, ainsi que des membres des populations sur lesquelles la technologie sera déployée.
Un seul modèle, par exemple le modèle de toxicité que nous exploitons dans l' exemple colab , peut être utilisé dans de nombreux contextes différents. Un modèle de toxicité déployé sur un site Web pour filtrer les commentaires offensants, par exemple, est un cas d'utilisation très différent du modèle déployé dans un exemple d'interface utilisateur Web où les utilisateurs peuvent saisir une phrase et voir quel score le modèle donne. En fonction du cas d'utilisation et de la manière dont les utilisateurs perçoivent la prédiction du modèle, votre produit présentera différents risques, effets et opportunités et vous souhaiterez peut-être évaluer différents problèmes d'équité.
Les questions ci-dessus constituent le fondement des considérations éthiques, y compris l'équité, que vous souhaiterez peut-être prendre en compte lors de la conception et du développement de votre produit basé sur le ML. Ces questions motivent également les mesures et les groupes d'utilisateurs que vous devez utiliser l'outil pour évaluer.
Avant d’approfondir, voici trois ressources recommandées pour commencer :
- Le guide People + AI pour la conception d'une IA centrée sur l'humain : ce guide est une excellente ressource sur les questions et les aspects à garder à l'esprit lors de la conception d'un produit basé sur l'apprentissage automatique. Bien que nous ayons créé ce guide en pensant aux designers, de nombreux principes aideront à répondre à des questions comme celle posée ci-dessus.
- Nos leçons apprises en matière d'équité : cette conférence à Google I/O traite des leçons que nous avons apprises dans notre objectif de créer et de concevoir des produits inclusifs.
- Cours intensif ML : Équité : Le cours intensif ML comprend une section de 70 minutes dédiée à l'identification et à l'évaluation des problèmes d'équité.
Alors, pourquoi regarder des tranches individuelles ? L'évaluation des tranches individuelles est importante, car des mesures globales solides peuvent masquer les mauvaises performances de certains groupes. De même, de bonnes performances pour une certaine mesure (précision, AUC) ne se traduisent pas toujours par des performances acceptables pour d’autres mesures (taux de faux positifs, taux de faux négatifs) qui sont tout aussi importantes pour évaluer les opportunités et les inconvénients pour les utilisateurs.
Les sections ci-dessous passeront en revue certains des aspects à prendre en compte.
Quels groupes dois-je diviser ?
En général, une bonne pratique consiste à diviser en autant de groupes que votre produit peut affecter, car vous ne savez jamais quand les performances peuvent différer de l'un de l'autre. Cependant, si vous n'êtes pas sûr, pensez aux différents utilisateurs susceptibles d'interagir avec votre produit et à la manière dont ils pourraient être affectés. Considérez, en particulier, les tranches liées à des caractéristiques sensibles telles que la race, l'origine ethnique, le sexe, la nationalité, le revenu, l'orientation sexuelle et le statut de handicap.
Que se passe-t-il si je n'ai pas de données étiquetées pour les tranches que je souhaite étudier ?
Bonne question. Nous savons que de nombreux ensembles de données ne comportent pas d'étiquettes de vérité terrain pour les attributs d'identité individuels.
Si vous vous trouvez dans cette situation, nous vous recommandons quelques approches :
- Identifiez si vous possédez des attributs qui peuvent vous donner un aperçu des performances des groupes. Par exemple, la géographie, même si elle n'est pas équivalente à l'origine ethnique et à la race, peut vous aider à découvrir des tendances disparates en matière de performance.
- Identifiez s'il existe des ensembles de données publics représentatifs qui pourraient bien correspondre à votre problème. Vous pouvez trouver une gamme d'ensembles de données diversifiés et inclusifs sur le site Google AI , qui incluent Project Respect , Inclusive Images et Open Images Extended , entre autres.
- Tirez parti des règles ou des classificateurs, le cas échéant, pour étiqueter vos données avec des attributs objectifs au niveau de la surface. Par exemple, vous pouvez étiqueter le texte pour indiquer s'il contient ou non un terme d'identité dans la phrase. Gardez à l’esprit que les classificateurs ont leurs propres défis et que si vous n’y faites pas attention, ils peuvent également introduire une autre couche de biais. Soyez clair sur ce que votre classificateur classe réellement . Par exemple, un classificateur d'âge sur les images classe en fait l'âge perçu . De plus, lorsque cela est possible, exploitez les attributs au niveau de la surface qui peuvent être objectivement identifiés dans les données. Par exemple, il est déconseillé de créer un classificateur d’images pour la race ou l’origine ethnique, car ce ne sont pas des traits visuels pouvant être définis dans une image. Un classificateur détecterait probablement des proxys ou des stéréotypes. Au lieu de cela, la création d'un classificateur pour le teint peut être un moyen plus approprié d'étiqueter et d'évaluer une image. Enfin, assurez-vous d’une grande précision pour les classificateurs étiquetant ces attributs.
- Recherchez des données plus représentatives étiquetées
Assurez-vous toujours d’évaluer sur plusieurs ensembles de données divers.
Si vos données d'évaluation ne sont pas suffisamment représentatives de votre base d'utilisateurs ou des types de données susceptibles d'être rencontrées, vous risquez de vous retrouver avec des mesures d'équité trompeuses. De même, des performances élevées du modèle sur un ensemble de données ne garantissent pas des performances élevées sur les autres.
Gardez à l’esprit que les sous-groupes ne constituent pas toujours le meilleur moyen de classer les individus.
Les gens sont multidimensionnels et appartiennent à plus d’un groupe, même au sein d’une seule dimension – pensez à quelqu’un qui est multiracial ou qui appartient à plusieurs groupes raciaux. En outre, même si les mesures globales pour un groupe racial donné peuvent sembler équitables, des interactions particulières, telles que la race et le sexe ensemble, peuvent montrer des biais involontaires. De plus, de nombreux sous-groupes ont des frontières floues qui sont constamment redessinées.
Quand ai-je testé suffisamment de tranches et comment savoir quelles tranches tester ?
Nous reconnaissons qu'il existe un grand nombre de groupes ou de tranches qu'il peut être pertinent de tester, et lorsque cela est possible, nous vous recommandons de découper et d'évaluer une gamme diversifiée et large de tranches, puis d'approfondir en profondeur les opportunités d'amélioration. Il est également important de reconnaître que même si vous ne voyez pas de problèmes sur les tranches que vous avez testées, cela n'implique pas que votre produit fonctionne pour tous les utilisateurs, et il est important d'obtenir des commentaires et des tests diversifiés des utilisateurs pour vous assurer que vous identifiez continuellement de nouveaux produits. opportunités.
Pour commencer, nous vous recommandons de réfléchir à votre cas d'utilisation particulier et aux différentes manières dont les utilisateurs peuvent interagir avec votre produit. Comment différents utilisateurs peuvent-ils vivre des expériences différentes ? Qu'est-ce que cela signifie pour les tranches que vous devriez évaluer ? La collecte des commentaires de divers utilisateurs peut également mettre en évidence les tranches potentielles à prioriser.
Quelles métriques dois-je choisir ?
Lors de la sélection des métriques à évaluer pour votre système, réfléchissez aux personnes qui expérimenteront votre modèle, à la manière dont il sera vécu et aux effets de cette expérience.
Par exemple, comment votre modèle donne-t-il aux gens plus de dignité ou d’autonomie, ou a-t-il un impact positif sur leur bien-être émotionnel, physique ou financier ? En revanche, comment les prédictions de votre modèle pourraient-elles réduire la dignité ou l’autonomie des personnes, ou avoir un impact négatif sur leur bien-être émotionnel, physique ou financier ?
En général, nous vous recommandons de découper toutes vos mesures de performances existantes comme bonne pratique. Nous vous recommandons également d'évaluer vos métriques sur plusieurs seuils afin de comprendre comment le seuil peut affecter les performances de différents groupes.
De plus, s'il existe une étiquette prédite qui est uniformément « bonne » ou « mauvaise », envisagez de déclarer (pour chaque sous-groupe) le taux auquel cette étiquette est prédite. Par exemple, une « bonne » étiquette serait une étiquette dont la prédiction accorde à une personne l’accès à une ressource ou lui permet d’effectuer une action.
Mesures d’équité critiques pour la classification
Lorsque vous réfléchissez à un modèle de classification, pensez aux effets des erreurs (les différences entre l’étiquette réelle de « vérité terrain » et l’étiquette du modèle). Si certaines erreurs peuvent présenter davantage d'opportunités ou de préjudices pour vos utilisateurs, assurez-vous d'évaluer les taux de ces erreurs sur plusieurs groupes d'utilisateurs. Ces taux d'erreur sont définis ci-dessous, dans les métriques actuellement prises en charge par la version bêta des indicateurs d'équité.
Au cours de l'année prochaine, nous espérons publier des études de cas sur différents cas d'utilisation et les métriques qui y sont associées afin que nous puissions mieux mettre en évidence quand différentes métriques pourraient être les plus appropriées.
Mesures disponibles aujourd'hui dans les indicateurs d'équité
Taux positif / Taux négatif
- Définition : le pourcentage de points de données classés comme positifs ou négatifs, indépendamment de la vérité terrain
- Concerne : la parité démographique et l'égalité des résultats, lorsqu'elles sont égales entre les sous-groupes
- Quand utiliser cette métrique : cas d'utilisation de l'équité dans lesquels il est important d'avoir des pourcentages finaux égaux de groupes
Taux de vrais positifs / taux de faux négatifs
- Définition : le pourcentage de points de données positifs (tels qu'étiquetés dans la vérité terrain) qui sont correctement classés comme positifs, ou le pourcentage de points de données positifs qui sont incorrectement classés comme négatifs.
- Se rapporte à : l'égalité des chances (pour la classe positive), lorsqu'elle est égale entre les sous-groupes
- Quand utiliser cette mesure : cas d'utilisation de l'équité où il est important que le même pourcentage de candidats qualifiés soit noté positif dans chaque groupe. Ceci est le plus souvent recommandé dans les cas de classification de résultats positifs, tels que les demandes de prêt, les admissions scolaires ou si le contenu est adapté aux enfants.
Taux de vrais négatifs/taux de faux positifs
- Définition : le pourcentage de points de données négatifs (tels qu'étiquetés dans la vérité terrain) qui sont correctement classés comme négatifs, ou le pourcentage de points de données négatifs qui sont incorrectement classés comme positifs.
- Se rapporte à : l'égalité des chances (pour la classe négative), lorsqu'elle est égale entre les sous-groupes
- Quand utiliser cette métrique : cas d'utilisation de l'équité dans lesquels les taux d'erreur (ou la classification erronée de quelque chose comme positif) sont plus préoccupants que la classification des positifs. Ceci est plus fréquent dans les cas de maltraitance, où les aspects positifs conduisent souvent à des actions négatives. Ceux-ci sont également importants pour les technologies d'analyse faciale telles que la détection des visages ou les attributs du visage.
Précision et AUC
- Se rapporte à : la parité prédictive, lorsqu'elle est égale entre les sous-groupes
- Quand utiliser ces métriques : cas où la précision de la tâche est la plus critique (pas nécessairement dans une direction donnée), comme l'identification des visages ou le regroupement des visages
Taux de fausses découvertes
- Définition : le pourcentage de points de données négatifs (tels qu'étiquetés dans la vérité terrain) qui sont incorrectement classés comme positifs parmi tous les points de données classés comme positifs. C'est aussi l'inverse du PPV
- Se rapporte à : la parité prédictive (également connue sous le nom d'étalonnage), lorsqu'elle est égale entre les sous-groupes
- Quand utiliser cette métrique : cas où la fraction de prédictions positives correctes doit être égale dans tous les sous-groupes
Taux de fausses omissions
- Définition : le pourcentage de points de données positifs (tels qu'étiquetés dans la vérité terrain) qui sont incorrectement classés comme négatifs sur tous les points de données classés comme négatifs. C'est aussi l'inverse de la VAN
- Se rapporte à : la parité prédictive (également connue sous le nom d'étalonnage), lorsqu'elle est égale entre les sous-groupes
- Quand utiliser cette métrique : cas où la fraction de prédictions négatives correctes doit être égale dans tous les sous-groupes
Taux de retournement global / Taux de retournement de prédiction positif à négatif / Taux de retournement de prévision négatif à positif
- Définition : la probabilité que le classificateur donne une prédiction différente si l'attribut d'identité d'une entité donnée était modifié.
- Concerne : l'équité contrefactuelle
- Quand utiliser cette métrique : pour déterminer si la prédiction du modèle change lorsque les attributs sensibles référencés dans l'exemple sont supprimés ou remplacés. Si tel est le cas, envisagez d'utiliser la technique de couplage logit contrefactuel dans la bibliothèque Tensorflow Model Remediation.
Nombre de retournements / Nombre de retournements de prédiction positive à négative / Nombre de retournements de prédiction négative à positive *
- Définition : le nombre de fois où le classificateur donne une prédiction différente si le terme d'identité dans un exemple donné était modifié.
- Concerne : l'équité contrefactuelle
- Quand utiliser cette métrique : pour déterminer si la prédiction du modèle change lorsque les attributs sensibles référencés dans l'exemple sont supprimés ou remplacés. Si tel est le cas, envisagez d'utiliser la technique de couplage logit contrefactuel dans la bibliothèque Tensorflow Model Remediation.
Exemples de métriques à sélectionner
- Ne pas détecter systématiquement les visages dans une application d'appareil photo peut conduire à une expérience utilisateur négative pour certains groupes d'utilisateurs. Dans ce cas, des faux négatifs dans un système de détection de visage peuvent entraîner une défaillance du produit, tandis qu'un faux positif (détection d'un visage alors qu'il n'y en a pas) peut constituer une légère gêne pour l'utilisateur. Ainsi, évaluer et minimiser le taux de faux négatifs est important pour ce cas d’utilisation.
- Marquer injustement les commentaires textuels de certaines personnes comme « spam » ou « hautement toxiques » dans un système de modération conduit à réduire au silence certaines voix. D’une part, un taux élevé de faux positifs conduit à une censure injuste. D’un autre côté, un taux élevé de faux négatifs pourrait conduire à une prolifération de contenus toxiques émanant de certains groupes, ce qui pourrait à la fois nuire à l’utilisateur et constituer un préjudice de représentation pour ces groupes. Ainsi, les deux métriques sont importantes à prendre en compte, en plus des métriques qui prennent en compte tous les types d’erreurs telles que la précision ou l’AUC.
Vous ne voyez pas les statistiques que vous recherchez ?
Suivez la documentation ici pour ajouter votre propre métrique personnalisée.
Notes finales
Un écart dans les mesures entre deux groupes peut être le signe que votre modèle peut présenter des biais injustes . Vous devez interpréter vos résultats en fonction de votre cas d'utilisation. Cependant, le premier signe que vous traitez peut-être injustement un ensemble d’utilisateurs est lorsque les mesures entre cet ensemble d’utilisateurs et votre ensemble sont très différentes. Assurez-vous de tenir compte des intervalles de confiance lorsque vous examinez ces différences. Lorsque vous disposez de trop peu d’échantillons dans une tranche particulière, la différence entre les métriques peut ne pas être précise.
Atteindre l’égalité entre les groupes sur les indicateurs d’équité ne signifie pas que le modèle est équitable. Les systèmes sont très complexes et atteindre l’égalité sur l’un (ou même tous) des paramètres fournis ne peut pas garantir l’équité.
Les évaluations d'équité doivent être effectuées tout au long du processus de développement et après le lancement (et non la veille du lancement). Tout comme l’amélioration de votre produit est un processus continu et sujet à des ajustements en fonction des commentaires des utilisateurs et du marché, rendre votre produit juste et équitable nécessite une attention continue. À mesure que différents aspects du modèle changent, tels que les données d'entraînement, les entrées d'autres modèles ou la conception elle-même, les mesures d'équité sont susceptibles de changer. « Dépasser la barre » une seule fois ne suffit pas pour garantir que tous les composants en interaction sont restés intacts au fil du temps.
Des tests contradictoires doivent être effectués pour les exemples rares et malveillants. Les évaluations d'équité ne sont pas destinées à remplacer les tests contradictoires. Une défense supplémentaire contre des exemples rares et ciblés est cruciale, car ces exemples ne se manifesteront probablement pas dans les données de formation ou d'évaluation.