Fairness Indicators es una herramienta útil para evaluar la equidad de clasificadores binarios y de clases múltiples . Con el tiempo, esperamos ampliar esta herramienta, en colaboración con todos ustedes, para evaluar aún más consideraciones.
Tenga en cuenta que la evaluación cuantitativa es solo una parte de la evaluación de una experiencia de usuario más amplia. Empiece por pensar en los diferentes contextos a través de los cuales un usuario puede experimentar su producto. ¿Quiénes son los diferentes tipos de usuarios que se espera que atienda su producto? ¿Quién más puede verse afectado por la experiencia?
Al considerar el impacto de la IA en las personas, es importante recordar siempre que las sociedades humanas son extremadamente complejas. Comprender a las personas y sus identidades sociales, estructuras sociales y sistemas culturales son, cada uno de ellos, enormes campos de investigación abiertos por derecho propio. Si a esto le sumamos las complejidades de las diferencias interculturales en todo el mundo, lograr siquiera un punto de apoyo para comprender el impacto social puede ser un desafío. Siempre que sea posible, se recomienda consultar con expertos en el campo apropiado, que pueden incluir científicos sociales, sociolingüistas y antropólogos culturales, así como con miembros de las poblaciones en las que se implementará la tecnología.
Un único modelo, por ejemplo, el modelo de toxicidad que aprovechamos en el ejemplo de colab , se puede utilizar en muchos contextos diferentes. Un modelo de toxicidad implementado en un sitio web para filtrar comentarios ofensivos, por ejemplo, es un caso de uso muy diferente al modelo que se implementa en una interfaz de usuario web de ejemplo donde los usuarios pueden escribir una oración y ver qué puntuación otorga el modelo. Dependiendo del caso de uso y de cómo los usuarios experimentan la predicción del modelo, su producto tendrá diferentes riesgos, efectos y oportunidades y es posible que desee evaluar diferentes preocupaciones de equidad.
Las preguntas anteriores son la base de las consideraciones éticas, incluida la equidad, que quizás desee tener en cuenta al diseñar y desarrollar su producto basado en ML. Estas preguntas también motivan qué métricas y qué grupos de usuarios debes utilizar la herramienta para evaluar.
Antes de profundizar más, aquí hay tres recursos recomendados para comenzar:
- La guía People + AI para el diseño de IA centrado en el ser humano: esta guía es un gran recurso para las preguntas y aspectos a tener en cuenta al diseñar un producto basado en aprendizaje automático. Si bien creamos esta guía pensando en los diseñadores, muchos de los principios ayudarán a responder preguntas como la planteada anteriormente.
- Nuestras lecciones aprendidas de equidad : esta charla en Google I/O analiza las lecciones que hemos aprendido en nuestro objetivo de crear y diseñar productos inclusivos.
- Curso intensivo de ML: Equidad : El curso intensivo de ML tiene una sección de 70 minutos dedicada a identificar y evaluar inquietudes sobre equidad.
Entonces, ¿por qué mirar porciones individuales? La evaluación de sectores individuales es importante, ya que unas métricas generales sólidas pueden ocultar el desempeño deficiente de ciertos grupos. De manera similar, un buen desempeño para una determinada métrica (precisión, AUC) no siempre se traduce en un desempeño aceptable para otras métricas (tasa de falsos positivos, tasa de falsos negativos) que son igualmente importantes a la hora de evaluar oportunidades y daños para los usuarios.
Las siguientes secciones analizarán algunos de los aspectos a considerar.
¿Por qué grupos debería dividirme?
En general, una buena práctica es dividir tantos grupos como puedan verse afectados por su producto, ya que nunca se sabe cuándo el rendimiento puede diferir entre uno y otro. Sin embargo, si no está seguro, piense en los diferentes usuarios que pueden estar interactuando con su producto y cómo podrían verse afectados. Considere, especialmente, los sectores relacionados con características sensibles como raza, etnia, género, nacionalidad, ingresos, orientación sexual y estado de discapacidad.
¿Qué pasa si no tengo datos etiquetados para los sectores que quiero investigar?
Buena pregunta. Sabemos que muchos conjuntos de datos no tienen etiquetas de verdad sobre el terreno para los atributos de identidad individuales.
Si se encuentra en esta posición, le recomendamos algunos enfoques:
- Identifique si tiene atributos que puedan brindarle una idea del desempeño entre los grupos. Por ejemplo, la geografía, si bien no es equivalente a etnia y raza, puede ayudarle a descubrir patrones dispares en el desempeño.
- Identifique si existen conjuntos de datos públicos representativos que podrían corresponderse bien con su problema. Puede encontrar una variedad de conjuntos de datos diversos e inclusivos en el sitio de Google AI , que incluyen Project Respect , Inclusive Images y Open Images Extended , entre otros.
- Aproveche las reglas o clasificadores, cuando sea relevante, para etiquetar sus datos con atributos objetivos a nivel de superficie. Por ejemplo, puede etiquetar texto según si hay o no un término de identidad en la oración. Tenga en cuenta que los clasificadores tienen sus propios desafíos y, si no tiene cuidado, también pueden introducir otra capa de sesgo. Sea claro acerca de lo que realmente clasifica su clasificador. Por ejemplo, un clasificador de edad en imágenes en realidad clasifica la edad percibida . Además, cuando sea posible, aproveche los atributos a nivel de superficie que puedan identificarse objetivamente en los datos. Por ejemplo, no es aconsejable crear un clasificador de imágenes por raza o etnia, porque no son rasgos visuales que puedan definirse en una imagen. Un clasificador probablemente detectaría sustitutos o estereotipos. En cambio, crear un clasificador para el tono de piel puede ser una forma más apropiada de etiquetar y evaluar una imagen. Por último, garantice una alta precisión para los clasificadores que etiquetan dichos atributos.
- Encuentre datos más representativos que estén etiquetados
Asegúrese siempre de evaluar múltiples y diversos conjuntos de datos.
Si los datos de su evaluación no son adecuadamente representativos de su base de usuarios, o de los tipos de datos que probablemente se encontrarán, puede terminar con métricas de equidad engañosamente buenas. De manera similar, un alto rendimiento del modelo en un conjunto de datos no garantiza un alto rendimiento en otros.
Tenga en cuenta que los subgrupos no siempre son la mejor manera de clasificar a las personas.
Las personas son multidimensionales y pertenecen a más de un grupo, incluso dentro de una sola dimensión; considere a alguien que es multirracial o pertenece a múltiples grupos raciales. Además, si bien las métricas generales para un grupo racial determinado pueden parecer equitativas, interacciones particulares, como la raza y el género juntos, pueden mostrar sesgos no deseados. Además, muchos subgrupos tienen límites difusos que se modifican constantemente.
¿Cuándo he probado suficientes porciones y cómo sé qué porciones probar?
Reconocemos que existe una gran cantidad de grupos o sectores que pueden ser relevantes para probar y, cuando sea posible, recomendamos dividir y evaluar una amplia y diversa gama de sectores y luego profundizar donde detecte oportunidades de mejora. También es importante reconocer que, aunque es posible que no vea inquietudes sobre las porciones que ha probado, eso no implica que su producto funcione para todos los usuarios, y obtener diversos comentarios y pruebas de los usuarios es importante para garantizar que esté identificando continuamente nuevos productos. oportunidades.
Para comenzar, recomendamos pensar en su caso de uso particular y las diferentes formas en que los usuarios pueden interactuar con su producto. ¿Cómo podrían diferentes usuarios tener diferentes experiencias? ¿Qué significa eso para las porciones que debes evaluar? Recopilar comentarios de diversos usuarios también puede resaltar posibles sectores a priorizar.
¿Qué métricas debo elegir?
Al seleccionar qué métricas evaluar para su sistema, considere quién experimentará su modelo, cómo se experimentará y los efectos de esa experiencia.
Por ejemplo, ¿cómo da su modelo a las personas más dignidad o autonomía, o impacta positivamente en su bienestar emocional, físico o financiero? Por el contrario, ¿cómo podrían las predicciones de su modelo reducir la dignidad o la autonomía de las personas, o impactar negativamente en su bienestar emocional, físico o financiero?
En general, recomendamos dividir todas las métricas de rendimiento existentes como buena práctica. También recomendamos evaluar sus métricas a través de múltiples umbrales para comprender cómo el umbral puede afectar el rendimiento de diferentes grupos.
Además, si hay una etiqueta prevista que es uniformemente "buena" o "mala", entonces considere informar (para cada subgrupo) la tasa a la que se predice esa etiqueta. Por ejemplo, una etiqueta "buena" sería una etiqueta cuya predicción otorga a una persona acceso a algún recurso o le permite realizar alguna acción.
Métricas de equidad críticas para la clasificación
Cuando piense en un modelo de clasificación, piense en los efectos de los errores (las diferencias entre la etiqueta de "verdad fundamental" real y la etiqueta del modelo). Si algunos errores pueden representar más oportunidades o daños para sus usuarios, asegúrese de evaluar las tasas de estos errores entre grupos de usuarios. Estas tasas de error se definen a continuación, en las métricas actualmente admitidas por la versión beta de Fairness Indicators.
En el transcurso del próximo año, esperamos publicar estudios de casos de diferentes casos de uso y las métricas asociadas con estos para que podamos resaltar mejor cuándo las diferentes métricas podrían ser más apropiadas.
Métricas disponibles hoy en Indicadores de Equidad
Tasa Positiva / Tasa Negativa
- Definición: El porcentaje de puntos de datos que se clasifican como positivos o negativos, independientemente de la verdad fundamental.
- Se relaciona con: Paridad demográfica e igualdad de resultados, cuando son iguales entre subgrupos
- Cuándo utilizar esta métrica: casos de uso de equidad en los que es importante tener porcentajes finales iguales de grupos
Tasa de verdaderos positivos / Tasa de falsos negativos
- Definición: El porcentaje de puntos de datos positivos (etiquetados en la verdad fundamental) que se clasifican correctamente como positivos, o el porcentaje de puntos de datos positivos que se clasifican incorrectamente como negativos.
- Se relaciona con: Igualdad de oportunidades (para la clase positiva), cuando son iguales entre subgrupos
- Cuándo utilizar esta métrica: Casos de uso de equidad en los que es importante que el mismo porcentaje de candidatos calificados obtengan una calificación positiva en cada grupo. Esto se recomienda más comúnmente en casos de clasificación de resultados positivos, como solicitudes de préstamos, admisiones escolares o si el contenido es apto para niños.
Tasa de verdaderos negativos/Tasa de falsos positivos
- Definición: El porcentaje de puntos de datos negativos (etiquetados en la verdad fundamental) que se clasifican correctamente como negativos, o el porcentaje de puntos de datos negativos que se clasifican incorrectamente como positivos.
- Se relaciona con: Igualdad de oportunidades (para la clase negativa), cuando son iguales entre subgrupos
- Cuándo utilizar esta métrica: Casos de uso de equidad en los que las tasas de error (o clasificar erróneamente algo como positivo) son más preocupantes que clasificar los positivos. Esto es más común en casos de abuso, donde lo positivo a menudo conduce a acciones negativas. Estos también son importantes para las tecnologías de análisis facial, como la detección de rostros o los atributos de los rostros.
Precisión y AUC
- Se relaciona con: Paridad predictiva, cuando es igual en todos los subgrupos
- Cuándo utilizar estas métricas: casos en los que la precisión de la tarea es más crítica (no necesariamente en una dirección determinada), como la identificación de rostros o la agrupación de rostros.
Tasa de descubrimiento falso
- Definición: El porcentaje de puntos de datos negativos (etiquetados en la verdad fundamental) que se clasifican incorrectamente como positivos de todos los puntos de datos clasificados como positivos. Esto también es lo inverso del PPV.
- Se relaciona con: Paridad predictiva (también conocida como Calibración), cuando es igual en todos los subgrupos
- Cuándo utilizar esta métrica: casos en los que la fracción de predicciones positivas correctas debe ser igual en todos los subgrupos
Tasa de falsas omisiones
- Definición: El porcentaje de puntos de datos positivos (etiquetados en la verdad fundamental) que se clasifican incorrectamente como negativos de todos los puntos de datos clasificados como negativos. Este también es el inverso del VPN.
- Se relaciona con: Paridad predictiva (también conocida como Calibración), cuando es igual en todos los subgrupos
- Cuándo utilizar esta métrica: casos en los que la fracción de predicciones negativas correctas debe ser igual en todos los subgrupos
Tasa de inversión general / Tasa de inversión de predicción positiva a negativa / Tasa de inversión de predicción negativa a positiva
- Definición: La probabilidad de que el clasificador dé una predicción diferente si se cambiara el atributo de identidad en una característica determinada.
- Se relaciona con: Equidad contrafactual
- Cuándo utilizar esta métrica: al determinar si la predicción del modelo cambia cuando se eliminan o reemplazan los atributos sensibles a los que se hace referencia en el ejemplo. Si es así, considere utilizar la técnica de emparejamiento Logit contrafactual dentro de la biblioteca de corrección de modelos de Tensorflow.
Conteo de lanzamientos / Conteo de lanzamientos de predicción positiva a negativa / Conteo de lanzamientos de predicción negativa a positiva *
- Definición: el número de veces que el clasificador da una predicción diferente si se cambiara el término de identidad en un ejemplo determinado.
- Se relaciona con: Equidad contrafactual
- Cuándo utilizar esta métrica: al determinar si la predicción del modelo cambia cuando se eliminan o reemplazan los atributos sensibles a los que se hace referencia en el ejemplo. Si es así, considere utilizar la técnica de emparejamiento Logit contrafactual dentro de la biblioteca de corrección de modelos de Tensorflow.
Ejemplos de qué métricas seleccionar
- No detectar sistemáticamente rostros en una aplicación de cámara puede generar una experiencia de usuario negativa para ciertos grupos de usuarios. En este caso, los falsos negativos en un sistema de detección de rostros pueden provocar un fallo del producto, mientras que un falso positivo (detectar un rostro cuando no lo hay) puede suponer una ligera molestia para el usuario. Por lo tanto, evaluar y minimizar la tasa de falsos negativos es importante para este caso de uso.
- Marcar injustamente los comentarios de texto de ciertas personas como “spam” o “alta toxicidad” en un sistema de moderación lleva a que ciertas voces sean silenciadas. Por un lado, una alta tasa de falsos positivos conduce a una censura injusta. Por otro lado, una alta tasa de falsos negativos podría dar lugar a una proliferación de contenido tóxico de ciertos grupos, lo que puede dañar al usuario y constituir un daño representacional para esos grupos. Por lo tanto, es importante considerar ambas métricas, además de las métricas que tienen en cuenta todo tipo de errores, como la precisión o el AUC.
¿No ves las métricas que estás buscando?
Siga la documentación aquí para agregar su propia métrica personalizada.
Notas finales
Una brecha en la métrica entre dos grupos puede ser una señal de que su modelo puede tener sesgos injustos . Debe interpretar sus resultados de acuerdo con su caso de uso. Sin embargo, la primera señal de que puedes estar tratando injustamente a un conjunto de usuarios es cuando las métricas entre ese conjunto de usuarios y el total son significativamente diferentes. Asegúrese de tener en cuenta los intervalos de confianza al observar estas diferencias. Cuando tiene muy pocas muestras en un segmento particular, es posible que la diferencia entre las métricas no sea precisa.
Lograr la igualdad entre grupos en los indicadores de equidad no significa que el modelo sea justo. Los sistemas son muy complejos y lograr la igualdad en una (o incluso en todas) las métricas proporcionadas no puede garantizar la equidad.
Las evaluaciones de equidad deben realizarse durante todo el proceso de desarrollo y después del lanzamiento (no el día antes del lanzamiento). Así como mejorar su producto es un proceso continuo y sujeto a ajustes basados en los comentarios de los usuarios y del mercado, hacer que su producto sea justo y equitativo requiere atención continua. A medida que cambian diferentes aspectos del modelo, como los datos de entrenamiento, las entradas de otros modelos o el diseño mismo, es probable que cambien las métricas de equidad. "Limpiar la barra" una vez no es suficiente para garantizar que todos los componentes que interactúan hayan permanecido intactos a lo largo del tiempo.
Se deben realizar pruebas adversas para casos raros y maliciosos. Las evaluaciones de equidad no pretenden reemplazar las pruebas contradictorias. Es crucial una defensa adicional contra ejemplos raros y específicos, ya que estos ejemplos probablemente no se manifestarán en los datos de capacitación o evaluación.