Pemasangan Logit Kontrafaktual untuk Remediasi Model

Pemasangan Logit Kontrafaktual (CLP) adalah teknik dalam Library Remediasi Model TensorFlow yang berupaya memastikan bahwa prediksi model tidak berubah ketika atribut sensitif yang direferensikan dalam contoh dihapus atau diganti. Misalnya, dalam pengklasifikasi toksisitas, contoh seperti "Saya laki-laki" dan "Saya lesbian" tidak boleh memiliki prediksi toksisitas yang berbeda.

Untuk pembahasan mendalam mengenai topik ini, lihat penelitian mengenai counterfactual fairness , adversarial logit pairing , dan counterfactual logit pairing .

Kapan sebaiknya Anda menggunakan Pemasangan Logit Kontrafaktual?

CLP mengatasi skenario ketika perubahan pada atribut sensitif yang direferensikan dalam fitur mengubah prediksi (padahal prediksi seharusnya tidak berubah). Dengan demikian, model ini berupaya menjawab pertanyaan: Apakah model ini rentan terhadap perubahan prediksi hanya berdasarkan keberadaan atribut identitas? Lihat makalah penelitian untuk rincian tentang keadilan kontrafaktual.

Masalah ini terlihat di Perspective API , alat ML yang digunakan oleh pengembang dan penerbit untuk menganalisis konten komentar untuk teks yang berpotensi menyinggung atau beracun . Perspective API mengambil teks komentar sebagai masukan dan mengembalikan skor dari 0 hingga 1 sebagai indikasi kemungkinan bahwa komentar tersebut beracun. Misalnya, komentar seperti “Kamu idiot” mungkin mendapat skor probabilitas 0,8 untuk toksisitas, yang menunjukkan seberapa besar kemungkinan pembaca akan menganggap komentar tersebut beracun.

Setelah peluncuran awal Perspective API, pengguna eksternal menemukan korelasi positif antara istilah identitas yang berisi informasi tentang ras atau orientasi seksual dan prediksi skor toksisitas. Misalnya, frasa “Saya seorang lesbian” mendapat skor 0,51, sedangkan “Saya laki-laki” mendapat skor lebih rendah yaitu 0,2. Dalam kasus ini, istilah identitas tidak digunakan secara merendahkan, sehingga tidak akan ada perbedaan skor yang signifikan. Untuk informasi lebih lanjut tentang Perspective API, lihat postingan blog tentang bias yang tidak disengaja dan istilah identitas .

Bagaimana cara mengukur pengaruh Pemasangan Logit Kontrafaktual?

Jika Anda telah menilai model pembelajaran mesin dan menentukan bahwa perubahan prediksi karena perubahan atribut sensitif tertentu akan berbahaya, Anda harus mengukur prevalensi masalah ini. Dalam kasus pengklasifikasi biner atau kelas jamak, flip didefinisikan sebagai pengklasifikasi yang memberikan keputusan berbeda (seperti mengubah prediksi dari beracun menjadi tidak beracun) ketika atribut sensitif yang dirujuk dalam contoh berubah. Saat menilai prevalensi flips , Anda dapat melihat jumlah flip dan flip rate . Dengan mempertimbangkan potensi kerugian pengguna yang disebabkan oleh pembalikan dan frekuensi terjadinya pembalikan, Anda dapat menentukan apakah ini merupakan masalah yang harus diatasi dengan menerapkan CLP. Untuk informasi selengkapnya tentang metrik ini, lihat panduan Indikator Kewajaran .

Pada tipe model apa saya dapat menerapkan Counterfactual Logit Pairing?

Teknik ini dapat digunakan dengan pengklasifikasi biner dan kelas jamak dari berbagai jenis data seperti teks, gambar, dan video.

Kapan Pemasangan Logit Kontrafaktual tidak cocok untuk saya?

CLP bukanlah metode yang tepat untuk semua situasi. Misalnya, tidak relevan jika ada atau tidaknya istilah identitas secara sah mengubah prediksi pengklasifikasi. Hal ini mungkin terjadi jika pengklasifikasi bertujuan untuk menentukan apakah fitur tersebut merujuk pada kelompok identitas tertentu. Metode ini juga kurang berdampak jika korelasi yang tidak diinginkan antara hasil pengklasifikasi dan grup identitas tidak berdampak negatif pada pengguna.

CLP berguna untuk menguji apakah model bahasa atau pengklasifikasi toksisitas mengubah keluarannya dengan cara yang tidak adil (misalnya mengklasifikasikan sebuah teks sebagai beracun) hanya karena istilah seperti “Kulit Hitam”, “gay”, “Muslim” ada di dalamnya. teks. CLP tidak dimaksudkan untuk membuat prediksi terhadap individu, misalnya dengan memanipulasi identitas seseorang. Lihat makalah ini untuk pembahasan lebih detail.

Penting untuk diingat bahwa CLP adalah salah satu teknik dalam Responsible AI Toolkit yang dirancang khusus untuk mengatasi situasi ketika atribut sensitif yang dirujuk dalam fitur mengubah prediksi. Bergantung pada model dan kasus penggunaan Anda, penting juga untuk mempertimbangkan apakah terdapat kesenjangan kinerja untuk kelompok yang secara historis terpinggirkan, terutama karena CLP dapat memengaruhi kinerja kelompok. Hal ini dapat dinilai dengan Indikator Kewajaran dan ditangani oleh MinDiff yang juga ada di Library Remediasi Model TensorFlow.

Anda juga harus mempertimbangkan apakah produk Anda cocok digunakan untuk pembelajaran mesin. Jika ya, alur kerja pembelajaran mesin Anda harus dirancang sesuai dengan praktik yang direkomendasikan seperti memiliki tugas model yang terdefinisi dengan baik dan kebutuhan produk yang jelas.

Bagaimana cara kerja Pemasangan Logit Kontrafaktual?

CLP menambahkan kerugian pada model asli yang disediakan oleh logit yang memasangkan contoh asli dan kontrafaktual dari kumpulan data. Dengan menghitung selisih antara kedua nilai tersebut, Anda memberikan penalti terhadap perbedaan istilah sensitif yang menyebabkan prediksi pengklasifikasi Anda berubah. Karya ini didasarkan pada penelitian tentang pasangan logit adversarial dan pasangan logit kontrafaktual .