모델 교정을 위한 반사실적 로짓 쌍

CLP(반사실 로짓 쌍)는 예제에서 참조된 민감한 속성이 제거되거나 교체될 때 모델의 예측이 변경되지 않도록 보장하는 TensorFlow 모델 수정 라이브러리 내의 기술입니다. 예를 들어, 독성 분류기에서 "나는 남자입니다", "나는 레즈비언입니다"와 같은 예는 독성에 대한 다른 예측을 가져서는 안 됩니다.

이 주제에 대한 심층적인 논의를 보려면 반사실적 공정성 , 적대적 로짓 쌍 , 반사실적 로짓 쌍 에 대한 연구를 참조하세요.

언제 반사실적 로짓 쌍을 사용해야 합니까?

CLP는 기능에서 참조된 중요한 속성의 변경으로 인해 예측이 변경되는 시나리오를 다룹니다(예측이 변경되어서는 안 되는 경우). 이를 통해 다음 질문에 답하려고 시도합니다. 이 모델은 ID 속성의 존재 여부에만 기초하여 예측을 변경할 수 있습니까? 반사실적 공정성에 대한 자세한 내용은 연구 논문을 참조하세요.

이 문제는 개발자와 게시자가 잠재적으로 모욕적이거나 유해한 텍스트에 대한 댓글 내용을 분석하는 데 사용하는 ML 도구인 Perspective API 에서 나타났습니다. Perspective API는 댓글 텍스트를 입력으로 사용하고 해당 댓글이 유해할 확률을 표시하기 위해 0에서 1까지의 점수를 반환합니다. 예를 들어, "당신은 바보입니다"와 같은 댓글은 독자가 해당 댓글을 유해하다고 인식할 가능성을 나타내는 독성 확률 점수 0.8을 받을 수 있습니다.

Perspective API가 처음 출시된 후 외부 사용자는 인종이나 성적 취향에 대한 정보가 포함된 신원 용어와 예상 독성 점수 사이에 긍정적인 상관관계가 있음을 발견했습니다. 예를 들어, "나는 레즈비언입니다"라는 문구는 0.51점을 받았고, "나는 남자입니다"라는 문구는 0.2점이라는 더 낮은 점수를 받았습니다. 이 경우에는 동일성 용어를 경멸적으로 사용하지 않았으므로 점수에 큰 차이가 없어야 합니다. Perspective API에 대한 자세한 내용은 의도하지 않은 편견 및 정체성 용어 에 대한 블로그 게시물을 참조하세요.

반사실적 로짓 쌍의 효과를 어떻게 측정할 수 있나요?

기계 학습 모델을 평가하고 특정 민감한 속성의 변경으로 인한 예측 변경이 해로울 것이라고 판단한 경우 이 문제의 확산을 측정해야 합니다. 이진 또는 다중 클래스 분류기의 경우 플립은 예제에서 참조된 민감한 속성이 변경될 때 다른 결정(예: 예측을 독성에서 무독성으로 변경)을 제공하는 분류기로 정의됩니다. 뒤집기 의 유행을 평가할 때 뒤집기 횟수뒤집기 비율을 살펴볼 수 있습니다. 뒤집기 로 인해 발생할 수 있는 잠재적인 사용자 피해와 뒤집기 발생 빈도를 고려하면 이것이 CLP를 적용하여 해결해야 하는 문제인지 판단할 수 있습니다. 이러한 지표에 대한 자세한 내용은 공정성 지표 가이드를 참조하세요.

어떤 모델 유형에 반사실적 로짓 쌍을 적용할 수 있나요?

이 기술은 텍스트, 이미지, 비디오 등 다양한 유형의 데이터에 대한 이진 및 다중 클래스 분류기와 함께 사용할 수 있습니다.

반사실적 로짓 페어링이 나에게 적합하지 않은 경우는 언제인가요?

CLP가 모든 상황에 적합한 방법은 아닙니다. 예를 들어, 식별 용어의 존재 여부가 분류기 예측을 합법적으로 변경하는 경우에는 관련이 없습니다. 분류자가 특징이 특정 ID 그룹을 참조하는지 여부를 결정하는 것을 목표로 하는 경우가 이에 해당할 수 있습니다. 분류자 결과와 ID 그룹 간의 의도하지 않은 상관관계가 사용자에게 부정적인 영향을 미치지 않는 경우에도 이 방법은 덜 영향을 미칩니다.

CLP는 "흑인", "게이", "무슬림"과 같은 용어가 포함되어 있다는 이유만으로 언어 모델이나 독성 분류자가 출력을 불공정한 방식(예: 텍스트를 독성으로 분류)으로 변경하는지 여부를 테스트하는 데 유용합니다. 텍스트. CLP는 개인의 신원을 조작하는 등 개인에 대한 예측을 하기 위한 것이 아닙니다. 자세한 내용은 이 문서를 참조하세요.

CLP는 기능에서 참조된 민감한 속성이 예측을 변경하는 상황을 해결하기 위해 특별히 설계된 Responsible AI Toolkit 의 기술 중 하나라는 점을 명심하는 것이 중요합니다. 모델 및 사용 사례에 따라 역사적으로 소외된 그룹에 대한 성과 격차가 있는지 고려하는 것도 중요할 수 있습니다. 특히 CLP가 그룹 성과에 영향을 미칠 수 있기 때문입니다. 이는 공정성 지표 로 평가할 수 있으며 TensorFlow 모델 교정 ​​라이브러리에도 있는 MinDiff 로 해결할 수 있습니다.

또한 귀하의 제품이 머신러닝에 적합한 용도인지 여부도 고려해야 합니다. 그렇다면 기계 학습 워크플로는 잘 정의된 모델 작업 및 명확한 제품 요구 사항과 같은 알려진 권장 사례에 맞게 설계되어야 합니다.

반사실적 로짓 페어링은 어떻게 작동하나요?

CLP는 데이터 세트의 원본 예제와 반사실 예제를 로짓 쌍으로 연결하여 제공되는 원본 모델에 손실을 추가합니다. 두 값 사이의 차이를 계산함으로써 분류기 예측을 변경시키는 민감한 용어의 차이에 페널티를 적용합니다. 이 연구는 적대적 로짓 쌍반사실적 로짓 쌍 에 대한 연구를 기반으로 했습니다.