Emparelhamento de logit contrafactual para correção de modelo

O Contrafactual Logit Pairing (CLP) é uma técnica dentro da TensorFlow Model Remediation Library que procura garantir que a previsão de um modelo não seja alterada quando um atributo confidencial referenciado em um exemplo for removido ou substituído. Por exemplo, em um classificador de toxicidade, exemplos como "Sou homem" e "Sou lésbica" não devem ter uma previsão diferente de toxicidade.

Para uma discussão aprofundada sobre este tópico, consulte a pesquisa sobre justiça contrafactual , emparelhamento de logit adversário e emparelhamento de logit contrafactual .

Quando você deve usar o emparelhamento de logs contrafactuais?

O CLP aborda o cenário em que uma alteração em um atributo sensível referenciado em um recurso altera a previsão (quando a previsão não deveria ter sido alterada). Ao fazê-lo, tenta responder à pergunta: esse modelo é suscetível de alterar sua previsão com base apenas na presença de um atributo de identidade? Consulte o artigo de pesquisa para obter detalhes sobre justiça contrafactual.

Esse problema foi observado na Perspective API , uma ferramenta de ML usada por desenvolvedores e editores para analisar o conteúdo de comentários de texto potencialmente ofensivo ou tóxico . A API Perspective usa o texto do comentário como entrada e retorna uma pontuação de 0 a 1 como uma indicação da probabilidade de que o comentário seja tóxico. Por exemplo, um comentário como “Você é um idiota” pode receber uma pontuação de probabilidade de 0,8 para toxicidade, indicando a probabilidade de um leitor perceber esse comentário como tóxico.

Após o lançamento inicial da API Perspective, usuários externos descobriram uma correlação positiva entre os termos de identidade contendo informações sobre raça ou orientação sexual e a pontuação de toxicidade prevista. Por exemplo, a frase "eu sou lésbica" recebeu uma pontuação de 0,51, enquanto "eu sou um homem" recebeu uma pontuação menor de 0,2. Nesse caso, os termos de identidade não estavam sendo usados ​​de forma pejorativa, portanto, não deveria haver uma diferença tão significativa na pontuação. Para obter mais informações sobre a API Perspective, consulte a postagem do blog sobre tendências não intencionais e termos de identidade .

Como posso medir o efeito do Contrafactual Logit Pairing?

Se você avaliou seu modelo de aprendizado de máquina e determinou que alterações nas previsões devido a alterações em atributos confidenciais específicos seriam prejudiciais, você deve medir a prevalência desse problema. No caso de um classificador binário ou multiclasse, um flip é definido como um classificador que fornece uma decisão diferente (como alterar uma previsão de tóxico para não tóxico) quando o atributo confidencial referenciado no exemplo é alterado. Ao avaliar a prevalência de lançamentos , você pode observar a contagem e a taxa de lançamentos . Ao levar em consideração o dano potencial ao usuário causado por uma inversão e a frequência com que as inversões ocorrem, você pode determinar se esse é um problema que deve ser resolvido aplicando o CLP. Para obter mais informações sobre essas métricas, consulte o guia Fairness Indicators .

Em quais tipos de modelo posso aplicar o Contrafactual Logit Pairing?

Essa técnica pode ser usada com classificadores binários e multiclasse de diferentes tipos de dados, como texto, imagens e vídeos.

Quando o Contrafactual Logit Pairing não é adequado para mim?

O CLP não é o método certo para todas as situações. Por exemplo, não é relevante se a presença ou ausência de um termo de identidade alterar legitimamente a previsão do classificador. Este pode ser o caso se o classificador visa determinar se o recurso está referenciando um grupo de identidade específico. Esse método também é menos impactante se a correlação não intencional entre o resultado do classificador e o grupo de identidade não tiver repercussões negativas no usuário.

O CLP é útil para testar se um modelo de linguagem ou classificador de toxicidade está alterando sua saída de maneira injusta (por exemplo, classificando um texto como tóxico) simplesmente porque termos como “Negro”, “gay”, “Muçulmano” estão presentes no texto. O CLP não se destina a fazer previsões sobre indivíduos, por exemplo, manipulando a identidade de um indivíduo. Veja este artigo para uma discussão mais detalhada.

É importante ter em mente que o CLP é uma técnica no Kit de ferramentas de IA responsável especificamente projetada para lidar com a situação em que atributos confidenciais referenciados em recursos alteram a previsão. Dependendo do seu modelo e caso de uso, também pode ser importante considerar se há lacunas de desempenho para grupos historicamente marginalizados, principalmente porque o CLP pode afetar o desempenho do grupo. Isso pode ser avaliado com indicadores de imparcialidade e abordado pelo MinDiff , que também está na Biblioteca de correção de modelos do TensorFlow.

Você também deve considerar se seu produto é um uso apropriado para aprendizado de máquina. Se for, seu fluxo de trabalho de aprendizado de máquina deve ser projetado para práticas recomendadas conhecidas, como ter uma tarefa de modelo bem definida e necessidades claras do produto.

Como funciona o emparelhamento de logit contrafactual?

O CLP adiciona uma perda ao modelo original que é fornecida pelo logit emparelhando um exemplo original e contrafactual de um conjunto de dados. Ao calcular a diferença entre os dois valores, você penaliza as diferenças dos termos sensíveis que estão causando a alteração da previsão do classificador. Este trabalho foi baseado em pesquisas sobre emparelhamento de logit adversarial e emparelhamento de logit contrafactual .