Kiedy powinienem używać MinDiff?
Zastosuj MinDiff w przypadkach, gdy Twój model ogólnie działa dobrze, ale częściej generuje szkodliwe błędy na przykładach należących do wrażliwej grupy, a chcesz zamknąć lukę w wydajności. Wrażliwe grupy zainteresowań mogą się różnić w zależności od przypadku użycia, ale często obejmują klasy chronione, takie jak rasa, religia, płeć, orientacja seksualna i inne. W całym dokumencie będziemy używać terminu „grupa poufna” w odniesieniu do dowolnego zestawu przykładów należących do klasy chronionej.
Istnieją dwa podstawowe warunki używania MinDiff do rozwiązywania problemów z fragmentami danych o niskiej wydajności:
- Dostosowałeś już i oceniłeś swój model, identyfikując metryki, które wykazują słabsze wycinki danych. Należy to zrobić przed zastosowaniem korygowania modelu.
- Masz lub możesz uzyskać wystarczającą liczbę odpowiednich oznaczonych przykładów należących do grupy osiągającej słabe wyniki (więcej szczegółów poniżej).
MinDiff to jedna z wielu technik korygowania nierównego zachowania. W szczególności może to być dobry wybór, gdy próbujesz bezpośrednio wyrównać wydajność między grupami. MinDiff można stosować w połączeniu z innymi podejściami, takimi jak powiększanie danych i innymi, co może prowadzić do lepszych wyników. Jeśli jednak chcesz ustalić priorytety techniki, w którą chcesz zainwestować, powinieneś to zrobić zgodnie z potrzebami produktu.
Stosując MinDiff, możesz zauważyć pogorszenie lub nieznaczną zmianę wyników w przypadku grup osiągających najlepsze wyniki w miarę poprawy wyników grup osiągających słabsze wyniki. Ten kompromis jest oczekiwany i należy go ocenić w kontekście wymagań produktu. W praktyce często widzieliśmy, że MinDiff nie powoduje spadku wydajności wycinków poniżej akceptowalnego poziomu, ale jest to zależne od aplikacji i decyzję musi podjąć właściciel produktu.
W jakich modelach mogę zastosować MinDiff?
Wykazano, że MinDiff jest konsekwentnie skuteczny w zastosowaniu do klasyfikatorów binarnych. Możliwe jest dostosowanie metody do innych zastosowań, ale nie zostało to w pełni przetestowane. Wykonano pewną pracę, aby wykazać sukces w zadaniach wielokrotnej klasyfikacji i rankingu 1 , ale jakiekolwiek użycie MinDiff w tych lub innych typach modeli należy uważać za eksperymentalne.
Do jakich wskaźników mogę zastosować MinDiff?
MinDiff może być dobrym rozwiązaniem, gdy metryka, którą próbujesz wyrównać między grupami, to współczynnik fałszywie dodatnich (FPR) lub współczynnik fałszywie ujemnych (FNR) , ale może działać w przypadku innych metryk. Z reguły MinDiff może działać, gdy docelowy wskaźnik jest wynikiem różnic w rozkładach wyników między przykładami należącymi do wrażliwej grupy i przykładami nienależącymi do wrażliwej grupy.
Budowanie zbioru danych MinDiff
Przygotowując się do treningu z MinDiff, musisz przygotować trzy osobne zbiory danych. Podobnie jak w przypadku zwykłego szkolenia, Twoje zbiory danych MinDiff powinny być reprezentatywne dla użytkowników, których obsługuje Twój model. MinDiff może działać bez tego, ale w takich przypadkach należy zachować szczególną ostrożność.
Zakładając, że próbujesz poprawić FPR swojego modelu dla przykładów należących do wrażliwej klasy, będziesz potrzebować:
- Oryginalny zestaw szkoleniowy — oryginalny zestaw danych, który został użyty do szkolenia modelu bazowego
- Zestaw wrażliwy MinDiff — zbiór danych przykładów należących do klasy wrażliwej z wyłącznie negatywnymi etykietami prawdy podstawowej. Przykłady te zostaną wykorzystane jedynie do obliczenia straty MinDiff.
- Zestaw niewrażliwy MinDiff — zbiór danych przykładów nienależących do klasy wrażliwej z jedynie negatywnymi etykietami prawdy podstawowej. Przykłady te zostaną wykorzystane jedynie do obliczenia straty MinDiff.
Korzystając z biblioteki, połączysz wszystkie trzy zbiory danych w jeden zbiór danych, który posłuży jako nowy zbiór szkoleniowy.
Wybieranie przykładów dla MinDiff
W powyższym przykładzie tworzenie zestawów przykładów opatrzonych negatywnymi etykietami mogło wydawać się sprzeczne z intuicją, jeśli interesują Cię przede wszystkim rozbieżności w odsetku wyników fałszywie dodatnich . Należy jednak pamiętać, że fałszywie pozytywna prognoza pochodzi z negatywnie oznaczonego przykładu błędnie sklasyfikowanego jako pozytywny.
Zbierając dane dla MinDiff, powinieneś wybrać przykłady, w których rozbieżności w wynikach są oczywiste. W powyższym przykładzie oznaczało to wybranie przykładów oznaczonych negatywnie w celu rozwiązania problemu FPR. Gdybyśmy byli zainteresowani ukierunkowaniem na FNR, musielibyśmy wybrać pozytywnie oznaczone przykłady.
Ile danych potrzebuję?
Dobre pytanie - to zależy od przypadku użycia! W zależności od architektury modelu, dystrybucji danych i konfiguracji MinDiff ilość potrzebnych danych może się znacznie różnić. W poprzednich aplikacjach widzieliśmy, że MinDiff działa dobrze z 5000 przykładów w każdym zestawie szkoleniowym MinDiff (zestawy 2 i 3 w poprzedniej sekcji). W przypadku mniejszej ilości danych istnieje zwiększone ryzyko obniżenia wydajności, ale może to być minimalne lub akceptowalne w granicach ograniczeń produkcyjnych. Po zastosowaniu MinDiff będziesz musiał dokładnie ocenić swoje wyniki, aby zapewnić akceptowalną wydajność. Jeśli są one zawodne lub nie spełniają oczekiwań dotyczących wydajności, nadal możesz rozważyć zebranie większej ilości danych.
Kiedy MinDiff nie jest dla mnie odpowiedni?
MinDiff to potężna technika, która może zapewnić imponujące rezultaty, ale to nie znaczy, że jest to właściwa metoda w każdej sytuacji. Jej przypadkowe zastosowanie nie gwarantuje osiągnięcia odpowiedniego rozwiązania.
Poza wymaganiami omówionymi powyżej istnieją przypadki, w których MinDiff może być technicznie wykonalny, ale nieodpowiedni. Zawsze należy projektować przepływ pracy ML zgodnie ze znanymi zalecanymi praktykami. Na przykład, jeśli zadanie modelu jest źle zdefiniowane, produkt wymaga niejasności lub przykładowe etykiety są zbyt przekrzywione, należy priorytetowo zająć się tymi problemami. Podobnie, jeśli nie masz jasnej definicji grupy wrażliwej lub nie jesteś w stanie wiarygodnie określić, czy przykłady należą do grupy wrażliwej, nie będziesz w stanie skutecznie zastosować MinDiff.
Na wyższym poziomie należy zawsze rozważyć, czy Twój produkt w ogóle nadaje się do zastosowania w procesie uczenia maszynowego. Jeśli tak, rozważ potencjalne wektory szkód dla użytkownika, jakie powoduje. Dążenie do odpowiedzialnego prania pieniędzy to wieloaspektowy wysiłek, którego celem jest przewidywanie szerokiego zakresu potencjalnych szkód; MinDiff może pomóc złagodzić niektóre z nich, ale wszystkie wyniki zasługują na dokładne rozważenie.
1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). Uczciwość w rankingu rekomendacji poprzez porównania parami.