Kontrfaktyczne parowanie logitów w celu naprawy modelu

Kontrfactual Logit Pairing (CLP) to technika dostępna w bibliotece TensorFlow Model Remediation Library, która ma na celu zapewnienie, że przewidywanie modelu nie ulegnie zmianie w przypadku usunięcia lub zamiany wrażliwego atrybutu, do którego odwołuje się przykład. Na przykład w klasyfikatorze toksyczności przykłady takie jak „jestem mężczyzną” i „jestem lesbijką” nie powinny mieć różnych przewidywań toksyczności.

Aby zapoznać się ze szczegółową dyskusją na ten temat, zobacz badania dotyczące uczciwości kontrfaktycznej , kontradyktoryjnego parowania logitów i kontrfaktycznego parowania logitów .

Kiedy należy zastosować alternatywne parowanie logitowe?

CLP uwzględnia scenariusz, w którym zmiana wrażliwego atrybutu, do którego odwołuje się cecha, powoduje zmianę przewidywania (kiedy przewidywanie nie powinno było się zmieniać). Próbuje w ten sposób odpowiedzieć na pytanie: czy model ten jest podatny na zmianę swoich przewidywań opartych wyłącznie na obecności atrybutu tożsamości? Szczegółowe informacje na temat uczciwości kontrfaktycznej można znaleźć w artykule badawczym .

Ten problem zaobserwowano w interfejsie API Perspective , narzędziu ML używanym przez programistów i wydawców do analizowania treści komentarzy pod kątem potencjalnie obraźliwego lub toksycznego tekstu. Interfejs API Perspective przyjmuje tekst komentarza jako dane wejściowe i zwraca wynik od 0 do 1 jako wskaźnik prawdopodobieństwa, że ​​komentarz jest toksyczny. Na przykład komentarz typu „Jesteś idiotą” może otrzymać ocenę prawdopodobieństwa toksyczności na poziomie 0,8, co wskazuje, jak prawdopodobne jest, że czytelnik uzna ten komentarz za toksyczny.

Po pierwszym uruchomieniu Perspective API użytkownicy zewnętrzni odkryli pozytywną korelację między terminami tożsamości zawierającymi informacje na temat rasy lub orientacji seksualnej a przewidywaną oceną toksyczności. Przykładowo fraza „jestem lesbijką” uzyskała ocenę 0,51, natomiast „jestem mężczyzną” – niższą notę ​​– 0,2. W tym przypadku określenia tożsamościowe nie zostały użyte pejoratywnie, więc nie powinno być tak istotnej różnicy w punktacji. Więcej informacji na temat interfejsu API Perspective można znaleźć w poście na blogu dotyczącym niezamierzonych stronniczości i terminów związanych z tożsamością .

Jak mogę zmierzyć efekt alternatywnego parowania logitowego?

Jeśli oceniłeś swój model uczenia maszynowego i ustaliłeś, że zmiany w przewidywaniach spowodowane zmianami w określonych wrażliwych atrybutach będą szkodliwe, powinieneś zmierzyć częstość występowania tego problemu. W przypadku klasyfikatora binarnego lub wieloklasowego odwrócenie definiuje się jako klasyfikator podejmujący inną decyzję (np. zmianę przewidywania z toksycznego na nietoksyczny), gdy zmienia się wrażliwy atrybut, o którym mowa w przykładzie. Oceniając częstość występowania rzutów , możesz przyjrzeć się liczbie rzutów i współczynnikowi rzutów . Biorąc pod uwagę potencjalne szkody dla użytkownika spowodowane przewróceniem oraz częstotliwość występowania przewrotów, można określić, czy jest to problem wymagający rozwiązania poprzez zastosowanie rozporządzenia CLP. Więcej informacji na temat tych wskaźników można znaleźć w przewodniku po wskaźnikach uczciwości .

W jakich modelach mogę zastosować alternatywne parowanie Logit?

Techniki tej można używać z binarnymi i wieloklasowymi klasyfikatorami różnych typów danych, takich jak tekst, obrazy i filmy.

Kiedy alternatywne parowanie logitowe nie jest dla mnie odpowiednie?

CLP nie jest właściwą metodą we wszystkich sytuacjach. Na przykład nie ma znaczenia, czy obecność lub brak terminu tożsamości w sposób uzasadniony zmienia przewidywanie klasyfikatora. Może tak być w przypadku, gdy celem klasyfikatora jest ustalenie, czy cecha odnosi się do określonej grupy tożsamości. Ta metoda jest również mniej skuteczna, jeśli niezamierzona korelacja między wynikiem klasyfikatora a grupą tożsamości nie ma negatywnych konsekwencji dla użytkownika.

CLP jest przydatne do testowania, czy model języka lub klasyfikator toksyczności zmienia swoje wyniki w nieuczciwy sposób (na przykład klasyfikując fragment tekstu jako toksyczny) tylko dlatego, że w języku występują terminy takie jak „Czarny”, „gej”, „muzułmanin”. tekst. Celem CLP nie jest przewidywanie konkretnych osób, na przykład poprzez manipulowanie tożsamością danej osoby. Bardziej szczegółowe omówienie można znaleźć w tym artykule .

Należy pamiętać, że CLP to jedna z technik znajdujących się w zestawie narzędzi Odpowiedzialna sztuczna inteligencja , zaprojektowana specjalnie w celu rozwiązania sytuacji, w której wrażliwe atrybuty, do których odwołują się funkcje, zmieniają przewidywanie. W zależności od modelu i przypadku użycia ważne może być również rozważenie, czy istnieją luki w wynikach dla grup historycznie marginalizowanych, zwłaszcza że CLP może mieć wpływ na wyniki grupy. Można to ocenić za pomocą wskaźników uczciwości i rozwiązać za pomocą MinDiff , który znajduje się również w bibliotece korygowania modelu TensorFlow.

Powinieneś także rozważyć, czy Twój produkt w ogóle nadaje się do zastosowania w uczeniu maszynowym. Jeśli tak, przepływ pracy związany z uczeniem maszynowym powinien być zaprojektowany zgodnie ze znanymi zalecanymi praktykami, takimi jak dobrze zdefiniowane zadanie modelowe i jasne potrzeby dotyczące produktu.

Jak działa alternatywne parowanie logitowe?

CLP dodaje stratę do oryginalnego modelu, którą zapewnia logit łączący oryginalny i alternatywny przykład ze zbioru danych. Obliczając różnicę między tymi dwiema wartościami, karasz różnice w wrażliwych terminach, które powodują zmianę przewidywań klasyfikatora. Praca ta opierała się na badaniach nad kontradyktoryjnym parowaniem logitów i kontrfaktycznym parowaniem logitów .