Indicadores de imparcialidade: pensando na avaliação de imparcialidade

Indicadores de imparcialidade é uma ferramenta útil para avaliar classificadores binários e multiclasse para imparcialidade. Eventualmente, esperamos expandir essa ferramenta, em parceria com todos vocês, para avaliar ainda mais considerações.

Lembre-se de que a avaliação quantitativa é apenas uma parte da avaliação de uma experiência mais ampla do usuário. Comece pensando nos diferentes contextos pelos quais um usuário pode experimentar seu produto. Quem são os diferentes tipos de usuários que seu produto deve atender? Quem mais pode ser afetado pela experiência?

Ao considerar o impacto da IA ​​nas pessoas, é importante sempre lembrar que as sociedades humanas são extremamente complexas! Compreender as pessoas e suas identidades sociais, estruturas sociais e sistemas culturais são campos enormes de pesquisa aberta por direito próprio. Acrescente as complexidades das diferenças interculturais em todo o mundo, e conseguir uma base para entender o impacto social pode ser um desafio. Sempre que possível, é recomendável que você consulte especialistas de domínio apropriados, que podem incluir cientistas sociais, sociolinguistas e antropólogos culturais, bem como membros das populações nas quais a tecnologia será implantada.

Um único modelo, por exemplo, o modelo de toxicidade que utilizamos no exemplo colab , pode ser usado em muitos contextos diferentes. Um modelo de toxicidade implantado em um site para filtrar comentários ofensivos, por exemplo, é um caso de uso muito diferente do modelo implantado em uma interface de usuário da Web de exemplo, na qual os usuários podem digitar uma frase e ver qual pontuação o modelo fornece. Dependendo do caso de uso e de como os usuários experimentam a previsão do modelo, seu produto terá diferentes riscos, efeitos e oportunidades, e você pode querer avaliar diferentes preocupações de justiça.

As perguntas acima são a base de quais considerações éticas, incluindo justiça, você pode levar em consideração ao projetar e desenvolver seu produto baseado em ML. Essas perguntas também motivam quais métricas e quais grupos de usuários você deve usar a ferramenta para avaliar.

Antes de mergulhar ainda mais, aqui estão três recursos recomendados para começar:

  • The People + AI Guidebook for Human-centered AI design: Este guia é um ótimo recurso para as perguntas e aspectos a serem lembrados ao projetar um produto baseado em aprendizado de máquina. Embora tenhamos criado este guia com designers em mente, muitos dos princípios ajudarão a responder a perguntas como a apresentada acima.
  • Nossas lições de justiça aprendidas : esta palestra no Google I/O discute as lições que aprendemos em nosso objetivo de criar e projetar produtos inclusivos.
  • ML Crash Course: Fairness : O ML Crash Course tem uma seção de 70 minutos dedicada a identificar e avaliar preocupações de justiça

Então, por que olhar para fatias individuais? A avaliação de fatias individuais é importante, pois métricas gerais fortes podem obscurecer o desempenho insatisfatório de determinados grupos. Da mesma forma, um bom desempenho para uma determinada métrica (precisão, AUC) nem sempre se traduz em desempenho aceitável para outras métricas (taxa de falsos positivos, taxa de falsos negativos) que são igualmente importantes na avaliação de oportunidades e danos para os usuários.

As seções abaixo irão percorrer alguns dos aspectos a serem considerados.

Quais grupos devo dividir?

Em geral, uma boa prática é dividir por tantos grupos quantos podem ser afetados pelo seu produto, pois você nunca sabe quando o desempenho pode ser diferente para um do outro. No entanto, se você não tiver certeza, pense nos diferentes usuários que podem estar interagindo com seu produto e como eles podem ser afetados. Considere, especialmente, fatias relacionadas a características sensíveis, como raça, etnia, gênero, nacionalidade, renda, orientação sexual e status de deficiência.

E se eu não tiver dados rotulados para as fatias que desejo investigar?

Boa pergunta. Sabemos que muitos conjuntos de dados não têm rótulos de verdade para atributos de identidade individuais.

Se você se encontra nessa posição, recomendamos algumas abordagens:

  1. Identifique se atributos que você possui que podem fornecer algumas informações sobre o desempenho entre os grupos. Por exemplo, a geografia , embora não seja equivalente a etnia e raça, pode ajudá-lo a descobrir quaisquer padrões díspares de desempenho
  2. Identifique se há conjuntos de dados públicos representativos que podem mapear bem o seu problema. Você pode encontrar uma variedade de conjuntos de dados diversos e inclusivos no site do Google AI , que incluem Project Respect , Inclusive Images e Open Images Extended , entre outros.
  3. Aproveite as regras ou classificadores, quando relevantes, para rotular seus dados com atributos objetivos de nível de superfície. Por exemplo, você pode rotular o texto de acordo com a existência ou não de um termo de identidade na frase. Lembre-se de que os classificadores têm seus próprios desafios e, se você não for cuidadoso, também poderá introduzir outra camada de viés. Seja claro sobre o que seu classificador está realmente classificando. Por exemplo, um classificador de idade em imagens está de fato classificando a idade percebida . Além disso, quando possível, aproveite os atributos de nível de superfície que podem ser identificados objetivamente nos dados. Por exemplo, é desaconselhável construir um classificador de imagem para raça ou etnia, porque esses não são traços visuais que podem ser definidos em uma imagem. Um classificador provavelmente pegaria proxies ou estereótipos. Em vez disso, construir um classificador para tom de pele pode ser uma maneira mais apropriada de rotular e avaliar uma imagem. Por fim, garanta alta precisão para classificadores que rotulam esses atributos.
  4. Encontre dados mais representativos rotulados

Certifique-se sempre de avaliar em vários conjuntos de dados diversos.

Se seus dados de avaliação não forem adequadamente representativos de sua base de usuários ou dos tipos de dados que provavelmente serão encontrados, você poderá acabar com métricas de imparcialidade enganosamente boas. Da mesma forma, o alto desempenho do modelo em um conjunto de dados não garante alto desempenho em outros.

Tenha em mente que os subgrupos nem sempre são a melhor maneira de classificar os indivíduos.

As pessoas são multidimensionais e pertencem a mais de um grupo, mesmo dentro de uma única dimensão – considere alguém que é multirracial ou pertence a vários grupos raciais. Além disso, embora as métricas gerais para um determinado grupo racial possam parecer equitativas, interações específicas, como raça e gênero juntas, podem mostrar viés não intencional. Além disso, muitos subgrupos têm limites difusos que são constantemente redesenhados.

Quando testei fatias suficientes e como sei quais fatias testar?

Reconhecemos que há um grande número de grupos ou fatias que podem ser relevantes para teste e, quando possível, recomendamos fatiar e avaliar uma ampla e diversificada variedade de fatias e, em seguida, aprofundar-se nas oportunidades de melhoria. Também é importante reconhecer que, mesmo que você não veja preocupações nas fatias que testou, isso não significa que seu produto funcione para todos os usuários, e obter feedback e testes diversos dos usuários é importante para garantir que você identifique continuamente novos oportunidades.

Para começar, recomendamos pensar em seu caso de uso específico e nas diferentes maneiras pelas quais os usuários podem se envolver com seu produto. Como diferentes usuários podem ter experiências diferentes? O que isso significa para as fatias que você deve avaliar? A coleta de feedback de diversos usuários também pode destacar possíveis fatias a serem priorizadas.

Quais métricas devo escolher?

Ao selecionar quais métricas avaliar para seu sistema, considere quem experimentará seu modelo, como ele será experimentado e os efeitos dessa experiência.

Por exemplo, como seu modelo dá às pessoas mais dignidade ou autonomia, ou impacta positivamente seu bem-estar emocional, físico ou financeiro? Em contraste, como as previsões do seu modelo podem reduzir a dignidade ou autonomia das pessoas, ou impactar negativamente seu bem-estar emocional, físico ou financeiro?

Em geral, recomendamos dividir todas as métricas de desempenho existentes como uma boa prática. Também recomendamos avaliar suas métricas em vários limites para entender como o limite pode afetar o desempenho de diferentes grupos.

Além disso, se houver um rótulo previsto que seja uniformemente "bom" ou "ruim", considere relatar (para cada subgrupo) a taxa na qual esse rótulo é previsto. Por exemplo, um rótulo “bom” seria um rótulo cuja previsão concede a uma pessoa acesso a algum recurso ou permite que ela execute alguma ação.

Métricas críticas de imparcialidade para classificação

Ao pensar em um modelo de classificação, pense nos efeitos dos erros (as diferenças entre o rótulo de “verdade real” e o rótulo do modelo). Se alguns erros puderem representar mais oportunidades ou prejudicar seus usuários, certifique-se de avaliar as taxas desses erros em todos os grupos de usuários. Essas taxas de erro são definidas abaixo, nas métricas atualmente suportadas pelos indicadores de imparcialidade beta.

Ao longo do próximo ano, esperamos lançar estudos de caso de diferentes casos de uso e as métricas associadas a eles, para que possamos destacar melhor quando métricas diferentes podem ser mais apropriadas.

Métricas disponíveis hoje em indicadores de imparcialidade

Taxa Positiva / Taxa Negativa

  • Definição: a porcentagem de pontos de dados classificados como positivos ou negativos, independentemente da verdade do terreno
  • Refere-se a: Paridade Demográfica e Igualdade de Resultados, quando iguais entre os subgrupos
  • Quando usar esta métrica: casos de uso de imparcialidade em que é importante ter porcentagens finais iguais de grupos

Taxa de verdadeiro positivo / taxa de falso negativo

  • Definição: A porcentagem de pontos de dados positivos (como rotulados na verdade básica) que são classificados corretamente como positivos ou a porcentagem de pontos de dados positivos que são classificados incorretamente como negativos
  • Refere-se a: Igualdade de Oportunidade (para a classe positiva), quando igual entre os subgrupos
  • Quando usar essa métrica: casos de uso de imparcialidade em que é importante que a mesma porcentagem de candidatos qualificados seja classificada como positiva em cada grupo. Isso é mais comumente recomendado em casos de classificação de resultados positivos, como pedidos de empréstimo, admissões escolares ou se o conteúdo é adequado para crianças

Taxa de verdadeiro negativo / taxa de falso positivo

  • Definição: A porcentagem de pontos de dados negativos (como rotulados na verdade básica) que são classificados corretamente como negativos ou a porcentagem de pontos de dados negativos que são classificados incorretamente como positivos
  • Refere-se a: Igualdade de Oportunidade (para a classe negativa), quando igual entre os subgrupos
  • Quando usar esta métrica: casos de uso de imparcialidade em que as taxas de erro (ou classificação incorreta de algo como positivo) são mais preocupantes do que classificar os positivos. Isso é mais comum em casos de abuso, onde os aspectos positivos geralmente levam a ações negativas. Estes também são importantes para tecnologias de análise facial, como detecção de rosto ou atributos de rosto

Precisão e AUC

  • Relacionado a: Paridade preditiva, quando igual entre subgrupos
  • Quando usar essas métricas: casos em que a precisão da tarefa é mais crítica (não necessariamente em uma determinada direção), como identificação de rosto ou agrupamento de rosto

Taxa de descoberta falsa

  • Definição: A porcentagem de pontos de dados negativos (como rotulados na verdade básica) que são classificados incorretamente como positivos de todos os pontos de dados classificados como positivos. Este também é o inverso do PPV
  • Refere-se a: Paridade Preditiva (também conhecida como Calibração), quando igual entre os subgrupos
  • Quando usar esta métrica: casos em que a fração de previsões positivas corretas deve ser igual entre os subgrupos

Taxa de Falsa Omissão

  • Definição: A porcentagem de pontos de dados positivos (como rotulados na verdade básica) que são classificados incorretamente como negativos de todos os pontos de dados classificados como negativos. Este também é o inverso do VPL
  • Refere-se a: Paridade Preditiva (também conhecida como Calibração), quando igual entre os subgrupos
  • Quando usar esta métrica: casos em que a fração de previsões negativas corretas deve ser igual entre os subgrupos

Taxa de Inversão Geral / Taxa de Inversão da Previsão Positiva para Negativa / Taxa de Inversão da Previsão Negativa para Positiva

  • Definição: A probabilidade de o classificador fornecer uma previsão diferente se o atributo de identidade em um determinado recurso for alterado.
  • Relacionado a: Justiça contrafactual
  • Quando usar esta métrica: Ao determinar se a previsão do modelo muda quando os atributos confidenciais referenciados no exemplo são removidos ou substituídos. Se isso acontecer, considere usar a técnica Counterfactual Logit Pairing na biblioteca Tensorflow Model Remediation.

Contagem de Inversão / Contagem de Inversão de Previsão Positiva para Negativa Contagem de Inversão / Contagem de Inversão de Previsão Negativa para Positiva *

  • Definição: O número de vezes que o classificador fornece uma previsão diferente se o termo de identidade em um determinado exemplo for alterado.
  • Relacionado a: Justiça contrafactual
  • Quando usar esta métrica: Ao determinar se a previsão do modelo muda quando os atributos confidenciais referenciados no exemplo são removidos ou substituídos. Se isso acontecer, considere usar a técnica Counterfactual Logit Pairing na biblioteca Tensorflow Model Remediation.

Exemplos de quais métricas selecionar

  • A falha sistemática na detecção de rostos em um aplicativo de câmera pode levar a uma experiência de usuário negativa para determinados grupos de usuários. Nesse caso, falsos negativos em um sistema de detecção de rostos podem levar à falha do produto, enquanto um falso positivo (detectar um rosto quando não há um) pode causar um leve incômodo ao usuário. Assim, avaliar e minimizar a taxa de falsos negativos é importante para este caso de uso.
  • Marcar comentários de texto de certas pessoas injustamente como “spam” ou “alta toxicidade” em um sistema de moderação leva ao silenciamento de certas vozes. Por um lado, uma alta taxa de falsos positivos leva a uma censura injusta. Por outro lado, uma alta taxa de falsos negativos pode levar à proliferação de conteúdo tóxico de determinados grupos, o que pode prejudicar o usuário e constituir um dano representacional para esses grupos. Assim, é importante considerar ambas as métricas, além de métricas que levam em consideração todos os tipos de erros, como acurácia ou AUC.

Não encontra as métricas que procura?

Siga a documentação aqui para adicionar sua própria métrica personalizada.

Notas finais

Uma lacuna na métrica entre dois grupos pode ser um sinal de que seu modelo pode ter distorções injustas . Você deve interpretar seus resultados de acordo com seu caso de uso. No entanto, o primeiro sinal de que você pode estar tratando um conjunto de usuários de forma injusta é quando as métricas entre esse conjunto de usuários e o geral são significativamente diferentes. Certifique-se de levar em conta os intervalos de confiança ao analisar essas diferenças. Quando você tem poucas amostras em uma fatia específica, a diferença entre as métricas pode não ser precisa.

Alcançar a igualdade entre os grupos nos Indicadores de Justiça não significa que o modelo seja justo. Os sistemas são altamente complexos e alcançar a igualdade em uma (ou mesmo em todas) as métricas fornecidas não pode garantir a imparcialidade.

As avaliações de imparcialidade devem ser executadas durante todo o processo de desenvolvimento e pós-lançamento (não no dia anterior ao lançamento). Assim como melhorar seu produto é um processo contínuo e sujeito a ajustes com base no feedback do usuário e do mercado, tornar seu produto justo e equitativo requer atenção contínua. À medida que diferentes aspectos do modelo mudam, como dados de treinamento, entradas de outros modelos ou o próprio design, é provável que as métricas de imparcialidade mudem. “Limpar a barra” uma vez não é suficiente para garantir que todos os componentes de interação permaneçam intactos ao longo do tempo.

Testes adversários devem ser realizados para exemplos raros e maliciosos. As avaliações de imparcialidade não se destinam a substituir os testes contraditórios. A defesa adicional contra exemplos raros e direcionados é crucial, pois esses exemplos provavelmente não se manifestarão em dados de treinamento ou avaliação.