Model Düzeltme için Karşı Olgusal Logit Eşleştirme

Karşı Olgusal Logit Eşleştirme (CLP), TensorFlow Model İyileştirme Kitaplığı içindeki bir tekniktir ve bir örnekte başvurulan hassas bir öznitelik kaldırıldığında veya değiştirildiğinde bir modelin tahmininin değişmemesini sağlamayı amaçlar. Örneğin, bir toksisite sınıflandırıcısında "Ben bir erkeğim" ve "Ben bir lezbiyenim" gibi örneklerin toksisiteye ilişkin farklı bir tahmini olmamalıdır.

Bu konuyla ilgili derinlemesine bir tartışma için karşıolgusal adalet , çekişmeli logit eşleştirme ve karşıolgusal logit eşleştirme hakkındaki araştırmaya bakın.

Counterfactual Logit Pairing'i ne zaman kullanmalısınız?

CLP, bir özellikte başvurulan hassas bir öznitelikteki değişikliğin tahmini değiştirdiği (tahmin değişmemesi gerektiğinde) senaryoyu ele alır. Bunu yaparken şu soruyu yanıtlamaya çalışır: Bu model, yalnızca bir kimlik özelliğinin varlığına dayalı olarak tahminini değiştirmeye duyarlı mıdır? Karşıolgusal adaletle ilgili ayrıntılar için araştırma makalesine bakın.

Bu sorun, geliştiriciler ve yayıncılar tarafından yorumların içeriğini saldırgan veya zararlı olabilecek metinlere karşı analiz etmek için kullanılan bir makine öğrenimi aracı olan Perspective API'de görüldü. Perspective API, yorum metnini girdi olarak alır ve yorumun zararlı olma olasılığının bir göstergesi olarak 0'dan 1'e kadar bir puan döndürür. Örneğin, "Sen bir aptalsın" gibi bir yorum, zehirlilik açısından 0,8'lik bir olasılık puanı alabilir; bu, okuyucunun bu yorumu zehirli olarak algılama olasılığının ne kadar yüksek olduğunu gösterir.

Perspective API'nin ilk lansmanından sonra harici kullanıcılar, ırk veya cinsel yönelim hakkında bilgi içeren kimlik terimleri ile öngörülen toksisite puanı arasında pozitif bir korelasyon keşfetti. Örneğin "Ben bir lezbiyenim" ifadesi 0,51 puan alırken, "Ben bir erkeğim" ifadesi 0,2 gibi daha düşük bir puan aldı. Bu durumda kimlik terimleri aşağılayıcı bir şekilde kullanılmıyordu, dolayısıyla puanda bu kadar anlamlı bir fark olmaması gerekirdi. Perspective API'si hakkında daha fazla bilgi için istenmeyen önyargı ve kimlik terimleriyle ilgili blog gönderisine bakın.

Karşı Olgusal Logit Eşleştirmenin etkisini nasıl ölçebilirim?

Makine öğrenimi modelinizi değerlendirdiyseniz ve belirli hassas özelliklerdeki değişiklikler nedeniyle tahminlerdeki değişikliklerin zararlı olacağını belirlediyseniz bu sorunun yaygınlığını ölçmelisiniz. İkili veya çok sınıflı bir sınıflandırıcı durumunda, çevirme, örnekte atıfta bulunulan hassas nitelik değiştiğinde farklı bir karar veren (bir tahminin toksikten toksik olmayana değiştirilmesi gibi) bir sınıflandırıcı olarak tanımlanır. Fırlatmaların yaygınlığını değerlendirirken, atış sayısına ve atış oranına bakabilirsiniz. Bir dönme hareketinin neden olduğu potansiyel kullanıcı zararını ve dönme sıklığını göz önünde bulundurarak, bunun CLP uygulanarak çözülmesi gereken bir sorun olup olmadığını belirleyebilirsiniz. Bu ölçümler hakkında daha fazla bilgi için Adillik Göstergeleri kılavuzuna bakın.

Counterfactual Logit Pairing'i hangi model tiplerine uygulayabilirim?

Bu teknik, metin, resim ve video gibi farklı veri türlerinin ikili ve çok sınıflı sınıflandırıcılarıyla kullanılabilir.

Counterfactual Logit Eşleştirme ne zaman benim için uygun değildir?

CLP her durum için doğru yöntem değildir. Örneğin, bir kimlik teriminin varlığının veya yokluğunun sınıflandırıcı tahminini yasal olarak değiştirmesi önemli değildir. Sınıflandırıcının özelliğin belirli bir kimlik grubuna atıfta bulunup bulunmadığını belirlemeyi amaçlaması durumunda bu durum söz konusu olabilir. Sınıflandırıcı sonucu ile kimlik grubu arasındaki istenmeyen korelasyonun kullanıcı üzerinde olumsuz bir etkisi yoksa bu yöntem aynı zamanda daha az etkilidir.

CLP, bir dil modelinin veya zehirlilik sınıflandırıcısının çıktısını adil olmayan bir şekilde değiştirip değiştirmediğini (örneğin bir metin parçasını zehirli olarak sınıflandırmak) sırf “Siyah”, “eşcinsel”, “Müslüman” gibi terimlerin mevcut olması nedeniyle değiştirip değiştirmediğini test etmek için kullanışlıdır. metin. CLP'nin, örneğin bir bireyin kimliğini manipüle ederek, bireyler hakkında tahminlerde bulunması amaçlanmamıştır. Daha ayrıntılı bir tartışma için bu makaleye bakın.

CLP'nin , Sorumlu Yapay Zeka Araç Seti'nde, özelliklerde referans verilen hassas niteliklerin tahmini değiştirdiği durumu ele almak üzere özel olarak tasarlanmış bir teknik olduğunu akılda tutmak önemlidir. Modelinize ve kullanım durumunuza bağlı olarak, özellikle CLP grup performansını etkileyebileceğinden, geçmişte dışlanmış gruplar için performans boşlukları olup olmadığını dikkate almak da önemli olabilir. Bu, Adillik Göstergeleri ile değerlendirilebilir ve yine TensorFlow Model İyileştirme Kitaplığı'nda bulunan MinDiff tarafından ele alınabilir.

Ayrıca ürününüzün makine öğrenimi için uygun olup olmadığını da düşünmelisiniz. Eğer öyleyse, makine öğrenimi iş akışınız, iyi tanımlanmış bir model göreve ve net ürün ihtiyaçlarına sahip olmak gibi bilinen önerilen uygulamalara göre tasarlanmalıdır.

Counterfactual Logit Eşleştirme nasıl çalışır?

CLP, bir veri kümesindeki orijinal ve karşıolgusal bir örneği logit ile eşleştirerek orijinal modele bir kayıp ekler. İki değer arasındaki farkı hesaplayarak sınıflandırıcı tahmininizin değişmesine neden olan hassas terimlerin farklılıklarını cezalandırırsınız. Bu çalışma, çekişmeli logit eşleştirmesi ve karşı olgusal logit eşleştirmesi üzerine yapılan araştırmaya dayanıyordu.