언제 MinDiff를 사용해야 합니까?
모델이 일반적으로 잘 작동하지만 민감한 그룹에 속하는 예제에서 유해한 오류가 더 자주 발생하고 성능 격차를 줄이고 싶은 경우 MinDiff를 적용합니다. 민감한 관심 그룹은 사용 사례에 따라 다를 수 있지만 인종, 종교, 성별, 성적 취향 등과 같은 보호 계층이 포함되는 경우가 많습니다. 이 문서 전체에서 보호 클래스에 속하는 모든 예 세트를 언급하기 위해 "민감한 그룹"을 사용합니다.
성능이 저하된 데이터 조각을 해결하기 위해 MinDiff를 사용하기 위한 두 가지 기본 조건이 있습니다.
- 이미 모델을 조정하고 평가하여 실적이 저조한 데이터 조각을 보여주는 지표를 식별했습니다. 모델 수정을 적용하기 전에 이 작업을 수행해야 합니다.
- 실적이 저조한 그룹에 속하는 라벨이 지정된 충분한 수의 사례를 보유하고 있거나 얻을 수 있습니다(자세한 내용은 아래 참조).
MinDiff는 불평등한 행동을 교정하기 위한 많은 기술 중 하나입니다. 특히 그룹 간 성과를 직접적으로 균등화하려는 경우 좋은 선택이 될 수 있습니다. MinDiff는 데이터 확대 및 기타 접근 방식과 함께 사용하여 더 나은 결과를 얻을 수 있습니다. 그러나 어떤 기술에 투자할지 우선순위를 정해야 한다면 제품 요구 사항에 따라 투자해야 합니다.
MinDiff를 적용하면 실적이 저조한 그룹이 향상됨에 따라 최고 실적 그룹의 실적이 저하되거나 약간 변화하는 것을 볼 수 있습니다. 이러한 절충은 예상되며 제품 요구 사항의 맥락에서 평가되어야 합니다. 실제로 우리는 MinDiff가 최고 성능의 슬라이스를 허용 가능한 수준 이하로 떨어뜨리지 않는 것을 종종 보았습니다. 그러나 이는 응용 프로그램에 따라 다르며 제품 소유자가 내려야 하는 결정입니다.
MinDiff를 어떤 모델 유형에 적용할 수 있나요?
MinDiff는 이진 분류기에 적용할 때 지속적으로 효과적인 것으로 나타났습니다. 다른 응용 프로그램에 대한 방법을 적용하는 것이 가능하지만 완전히 테스트되지 않았습니다. 다중 분류 및 순위 지정 작업의 성공을 보여주기 위해 일부 작업이 수행되었지만 이러한 모델이나 다른 유형의 모델에 MinDiff를 사용하는 것은 실험적인 것으로 간주되어야 합니다.
MinDiff를 어떤 측정항목에 적용할 수 있나요?
MinDiff는 그룹 간에 균등화하려는 측정항목이 FPR(위양성률) 또는 FNR(위음성률) 인 경우 좋은 솔루션이 될 수 있지만 다른 측정항목에도 작동할 수 있습니다. 일반적으로 MinDiff는 대상으로 삼는 측정항목이 민감한 그룹에 속하는 예와 민감한 그룹에 속하지 않는 예 간의 점수 분포 차이로 인해 발생하는 경우 작동할 수 있습니다.
MinDiff 데이터 세트 구축
MinDiff로 훈련을 준비할 때 세 가지 별도의 데이터세트를 준비해야 합니다. 일반 훈련과 마찬가지로 MinDiff 데이터 세트는 모델이 제공하는 사용자를 대표해야 합니다. MinDiff는 이것이 없어도 작동할 수 있지만 그러한 경우에는 특별히 주의해야 합니다.
민감한 클래스에 속하는 예시에 대해 모델의 FPR을 개선하려고 한다고 가정하면 다음이 필요합니다.
- 원본 훈련 세트 - 기준 모델 훈련에 사용된 원본 데이터 세트
- MinDiff 민감 세트 - 음의 정답 레이블 만 있는 민감 클래스에 속하는 예제 데이터세트입니다. 이러한 예는 MinDiff 손실을 계산하는 데에만 사용됩니다.
- MinDiff 비민감 세트 - 음의 정답 레이블 만 있는 민감한 클래스에 속하지 않는 예제 데이터 세트입니다. 이러한 예는 MinDiff 손실을 계산하는 데에만 사용됩니다.
라이브러리를 사용할 때 이러한 세 가지 데이터 세트를 모두 단일 데이터 세트로 결합하여 새로운 훈련 세트로 사용하게 됩니다.
MinDiff에 대한 예 선택
주로 위양성률 의 차이에 관심이 있는 경우 위의 예에서 부정적으로 라벨이 지정된 예 세트를 분리하는 것이 직관에 어긋나는 것처럼 보일 수 있습니다. 그러나 거짓양성 예측은 양성으로 잘못 분류된 음성 라벨이 지정된 예에서 비롯된다는 점을 기억하세요.
MinDiff에 대한 데이터를 수집할 때 성능 차이가 분명한 예를 선택해야 합니다. 위의 예에서 이는 FPR을 해결하기 위해 부정적인 라벨이 붙은 예를 선택하는 것을 의미합니다. FNR을 타겟팅하는 데 관심이 있었다면 긍정적으로 라벨이 지정된 예시를 선택해야 했을 것입니다.
얼마나 많은 데이터가 필요합니까?
좋은 질문입니다. 사용 사례에 따라 다릅니다. 모델 아키텍처, 데이터 분포 및 MinDiff 구성에 따라 필요한 데이터 양이 크게 달라질 수 있습니다. 과거 애플리케이션에서 우리는 MinDiff가 각 MinDiff 훈련 세트(이전 섹션의 세트 2와 3)의 5,000개 예제에서 잘 작동하는 것을 확인했습니다. 데이터가 적으면 성능이 저하될 위험이 높아지지만 이는 생산 제약 조건 내에서 최소화되거나 허용될 수 있습니다. MinDiff를 적용한 후에는 결과를 철저히 평가하여 허용 가능한 성능을 보장해야 합니다. 신뢰할 수 없거나 성능 기대치를 충족하지 못하는 경우에도 더 많은 데이터 수집을 고려할 수 있습니다.
MinDiff가 나에게 적합 하지 않은 경우는 언제인가요?
MinDiff는 인상적인 결과를 제공할 수 있는 강력한 기술이지만 이것이 모든 상황에 적합한 방법이라는 의미는 아닙니다. 아무렇게나 적용한다고 해서 적절한 솔루션을 얻을 수 있다는 보장은 없습니다.
위에서 설명한 요구 사항 외에도 MinDiff가 기술적으로 가능하지만 적합하지 않은 경우가 있습니다. 항상 알려진 권장 사례에 따라 ML 워크플로를 설계해야 합니다. 예를 들어, 모델 작업이 잘못 정의되었거나, 제품이 명확하지 않거나, 예시 라벨이 지나치게 왜곡된 경우 이러한 문제를 우선적으로 해결해야 합니다. 마찬가지로 민감한 그룹에 대한 명확한 정의가 없거나 예제가 민감한 그룹에 속하는지 확실하게 확인할 수 없는 경우 MinDiff를 효과적으로 적용할 수 없습니다.
더 높은 수준에서는 제품이 ML에 적합한 용도인지 항상 고려해야 합니다. 그렇다면 사용자에게 해를 끼칠 수 있는 잠재적인 벡터를 고려하십시오. 책임감 있는 ML을 추구하는 것은 광범위한 잠재적 피해를 예상하는 것을 목표로 하는 다각적인 노력입니다. MinDiff는 이들 중 일부를 완화하는 데 도움이 될 수 있지만 모든 결과는 신중하게 고려해야 합니다.
1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). 쌍별 비교를 통한 추천 순위의 공정성.