Indikator Kewajaran adalah alat yang berguna untuk mengevaluasi pengklasifikasi biner dan kelas jamak untuk keadilan. Pada akhirnya, kami berharap dapat memperluas alat ini, melalui kemitraan dengan Anda semua, untuk mengevaluasi lebih banyak pertimbangan.
Perlu diingat bahwa evaluasi kuantitatif hanyalah salah satu bagian dari evaluasi pengalaman pengguna yang lebih luas. Mulailah dengan memikirkan konteks berbeda yang memungkinkan pengguna merasakan produk Anda. Siapa saja jenis pengguna berbeda yang diharapkan dilayani oleh produk Anda? Siapa lagi yang mungkin terpengaruh oleh pengalaman ini?
Saat mempertimbangkan dampak AI terhadap manusia, penting untuk selalu diingat bahwa masyarakat manusia sangatlah kompleks! Memahami masyarakat, dan identitas sosialnya, struktur sosial dan sistem budayanya masing-masing merupakan bidang penelitian terbuka yang sangat besar. Membahas kompleksitas perbedaan lintas budaya di seluruh dunia, dan memahami dampak sosial dapat menjadi sebuah tantangan. Jika memungkinkan, disarankan agar Anda berkonsultasi dengan pakar domain yang sesuai, yang mungkin mencakup ilmuwan sosial, ahli sosiolinguistik, dan antropolog budaya, serta dengan anggota populasi di mana teknologi akan diterapkan.
Model tunggal, misalnya model toksisitas yang kita manfaatkan dalam contoh colab , dapat digunakan dalam banyak konteks berbeda. Model toksisitas yang diterapkan di situs web untuk memfilter komentar yang menyinggung, misalnya, adalah kasus penggunaan yang sangat berbeda dengan model yang diterapkan di contoh UI web di mana pengguna dapat mengetikkan kalimat dan melihat skor yang diberikan model tersebut. Bergantung pada kasus penggunaan, dan bagaimana pengguna merasakan prediksi model, produk Anda akan memiliki risiko, dampak, dan peluang yang berbeda dan Anda mungkin ingin mengevaluasi masalah keadilan yang berbeda.
Pertanyaan di atas adalah landasan pertimbangan etis, termasuk keadilan, yang mungkin ingin Anda pertimbangkan saat merancang dan mengembangkan produk berbasis ML Anda. Pertanyaan-pertanyaan ini juga memotivasi metrik mana dan kelompok pengguna mana yang harus Anda gunakan untuk mengevaluasi alat ini.
Sebelum mendalami lebih jauh, berikut tiga sumber daya yang direkomendasikan untuk memulai:
- Buku Panduan Manusia + AI untuk desain AI yang Berpusat pada Manusia: Buku panduan ini adalah sumber yang bagus untuk menjawab pertanyaan dan aspek yang perlu diingat saat merancang produk berbasis pembelajaran mesin. Meskipun kami membuat buku panduan ini dengan mempertimbangkan para desainer, banyak prinsip yang akan membantu menjawab pertanyaan seperti yang diajukan di atas.
- Pembelajaran Keadilan yang Kami Petik : Pembicaraan di Google I/O ini membahas pembelajaran yang telah kami peroleh dalam tujuan kami membangun dan merancang produk inklusif.
- Kursus Singkat ML: Keadilan : Kursus Singkat ML memiliki bagian berdurasi 70 menit yang didedikasikan untuk mengidentifikasi dan mengevaluasi masalah keadilan
Jadi, mengapa melihat irisan satu per satu? Evaluasi terhadap masing-masing bagian penting karena metrik keseluruhan yang kuat dapat mengaburkan kinerja buruk kelompok tertentu. Demikian pula, kinerja yang baik untuk metrik tertentu (akurasi, AUC) tidak selalu berarti kinerja yang dapat diterima untuk metrik lainnya (rasio positif palsu, rasio negatif palsu) yang sama pentingnya dalam menilai peluang dan kerugian bagi pengguna.
Bagian di bawah ini akan membahas beberapa aspek yang perlu dipertimbangkan.
Kelompok mana yang harus saya bagi?
Secara umum, praktik yang baik adalah mengelompokkan sebanyak mungkin kelompok yang mungkin terpengaruh oleh produk Anda, karena Anda tidak pernah tahu kapan kinerja satu sama lain mungkin berbeda. Namun, jika Anda tidak yakin, pikirkan tentang berbagai pengguna yang mungkin terlibat dengan produk Anda, dan bagaimana mereka mungkin terpengaruh. Pertimbangkan, khususnya, bagian-bagian yang berkaitan dengan karakteristik sensitif seperti ras, etnis, gender, kebangsaan, pendapatan, orientasi seksual, dan status disabilitas.
Bagaimana jika saya tidak memiliki label data untuk bagian yang ingin saya selidiki?
Pertanyaan bagus. Kita tahu bahwa banyak kumpulan data tidak memiliki label kebenaran dasar untuk atribut identitas individual.
Jika Anda berada dalam posisi ini, kami merekomendasikan beberapa pendekatan:
- Identifikasi apakah ada atribut yang Anda miliki yang dapat memberi Anda wawasan tentang kinerja di seluruh grup. Misalnya, geografi meskipun tidak setara dengan etnis & ras, dapat membantu Anda mengungkap pola kinerja yang berbeda
- Identifikasi apakah ada kumpulan data publik representatif yang mungkin dapat memetakan masalah Anda dengan baik. Anda dapat menemukan serangkaian kumpulan data yang beragam dan inklusif di situs Google AI , yang mencakup antara lain Project Respect , Inclusive Images , dan Open Images Extended .
- Manfaatkan aturan atau pengklasifikasi, jika relevan, untuk memberi label pada data Anda dengan atribut tingkat permukaan yang objektif. Misalnya, Anda dapat memberi label pada teks untuk mengetahui ada atau tidaknya istilah identitas dalam kalimat tersebut. Perlu diingat bahwa pengklasifikasi memiliki tantangan tersendiri, dan jika Anda tidak berhati-hati, hal ini juga dapat menimbulkan lapisan bias lainnya. Perjelas tentang apa yang sebenarnya diklasifikasikan oleh pengklasifikasi Anda. Misalnya, pengklasifikasi usia pada gambar sebenarnya mengklasifikasikan usia yang dirasakan . Selain itu, jika memungkinkan, manfaatkan atribut tingkat permukaan yang dapat diidentifikasi secara objektif dalam data. Misalnya, tidak disarankan untuk membuat pengklasifikasi gambar berdasarkan ras atau etnis, karena ini bukan ciri visual yang dapat didefinisikan dalam sebuah gambar. Pengklasifikasi kemungkinan besar akan menangkap proxy atau stereotip. Sebaliknya, membuat pengklasifikasi warna kulit mungkin merupakan cara yang lebih tepat untuk memberi label dan mengevaluasi suatu gambar. Terakhir, pastikan akurasi tinggi untuk pengklasifikasi yang memberi label pada atribut tersebut.
- Temukan data yang lebih representatif yang diberi label
Selalu pastikan untuk mengevaluasi beberapa kumpulan data yang beragam.
Jika data evaluasi Anda tidak cukup mewakili basis pengguna Anda, atau jenis data yang mungkin ditemui, Anda mungkin akan mendapatkan metrik keadilan yang tampak bagus. Demikian pula, performa model yang tinggi pada satu kumpulan data tidak menjamin performa yang tinggi pada kumpulan data lainnya.
Ingatlah bahwa subkelompok tidak selalu merupakan cara terbaik untuk mengklasifikasikan individu.
Manusia bersifat multidimensi dan tergabung dalam lebih dari satu kelompok, bahkan dalam satu dimensi -- pertimbangkan seseorang yang multiras, atau tergabung dalam beberapa kelompok ras. Selain itu, meskipun metrik keseluruhan untuk kelompok ras tertentu mungkin terlihat adil, interaksi tertentu, seperti ras dan gender secara bersamaan mungkin menunjukkan bias yang tidak diinginkan. Selain itu, banyak subgrup yang memiliki batasan kabur yang terus-menerus digambar ulang.
Kapan saya sudah menguji cukup banyak irisan, dan bagaimana saya tahu irisan mana yang harus diuji?
Kami mengakui bahwa ada banyak sekali kelompok atau bagian yang mungkin relevan untuk diuji, dan jika memungkinkan, kami merekomendasikan untuk mengelompokkan dan mengevaluasi bagian yang beragam dan beragam, lalu menyelami lebih dalam di mana Anda melihat peluang untuk perbaikan. Penting juga untuk diketahui bahwa meskipun Anda mungkin tidak melihat kekhawatiran pada irisan yang telah Anda uji, hal ini tidak berarti bahwa produk Anda berfungsi untuk semua pengguna, dan mendapatkan umpan balik serta pengujian dari pengguna yang beragam adalah penting untuk memastikan bahwa Anda terus mengidentifikasi produk baru. peluang.
Untuk memulai, sebaiknya pikirkan kasus penggunaan khusus Anda dan berbagai cara pengguna dapat berinteraksi dengan produk Anda. Bagaimana mungkin pengguna yang berbeda mempunyai pengalaman yang berbeda? Apa artinya irisan yang harus Anda evaluasi? Mengumpulkan umpan balik dari beragam pengguna juga dapat menyoroti bagian-bagian potensial yang perlu diprioritaskan.
Metrik mana yang harus saya pilih?
Saat memilih metrik mana yang akan dievaluasi untuk sistem Anda, pertimbangkan siapa yang akan menggunakan model Anda, bagaimana model tersebut akan digunakan, dan dampak dari pengalaman tersebut.
Misalnya, bagaimana model Anda memberi orang lebih banyak martabat atau otonomi, atau berdampak positif pada kesejahteraan emosional, fisik, atau finansial mereka? Sebaliknya, bagaimana prediksi model Anda dapat mengurangi martabat atau otonomi seseorang, atau berdampak negatif terhadap kesejahteraan emosional, fisik, atau finansial mereka?
Secara umum, sebaiknya potong semua metrik kinerja yang ada sebagai praktik yang baik. Kami juga merekomendasikan untuk mengevaluasi metrik Anda di beberapa ambang batas untuk memahami bagaimana ambang batas tersebut dapat memengaruhi kinerja untuk berbagai grup.
Selain itu, jika ada label yang diprediksi secara seragam "baik" atau "buruk", maka pertimbangkan untuk melaporkan (untuk setiap subgrup) tingkat prediksi label tersebut. Misalnya, label “baik” adalah label yang prediksinya memberikan seseorang akses ke suatu sumber daya, atau memungkinkan mereka melakukan tindakan tertentu.
Metrik keadilan yang penting untuk klasifikasi
Saat memikirkan model klasifikasi, pikirkan tentang dampak kesalahan (perbedaan antara label “kebenaran dasar” yang sebenarnya, dan label dari model). Jika beberapa kesalahan dapat menimbulkan lebih banyak peluang atau kerugian bagi pengguna Anda, pastikan Anda mengevaluasi tingkat kesalahan ini di seluruh kelompok pengguna. Tingkat kesalahan ini dijelaskan di bawah ini, dalam metrik yang saat ini didukung oleh Indikator Kewajaran versi beta.
Sepanjang tahun depan, kami berharap dapat merilis studi kasus dari berbagai kasus penggunaan dan metrik yang terkait dengannya sehingga kami dapat menyoroti dengan lebih baik kapan metrik yang berbeda mungkin paling tepat.
Metrik tersedia saat ini di Indikator Kewajaran
Tingkat Positif / Tingkat Negatif
- Definisi: Persentase titik data yang diklasifikasikan sebagai positif atau negatif, tidak bergantung pada kebenaran dasar
- Berkaitan dengan: Kesetaraan Demografis dan Kesetaraan Hasil, jika setara antar subkelompok
- Kapan menggunakan metrik ini: Kasus penggunaan kewajaran yang mengharuskan memiliki persentase akhir kelompok yang sama adalah hal yang penting
Tingkat Positif Benar / Tingkat Negatif Palsu
- Definisi: Persentase titik data positif (seperti yang diberi label pada kebenaran dasar) yang diklasifikasikan dengan benar sebagai positif, atau persentase titik data positif yang salah diklasifikasikan sebagai negatif
- Berkaitan dengan: Kesetaraan Peluang (untuk kelas positif), ketika setara antar subgrup
- Kapan menggunakan metrik ini: Kasus penggunaan kewajaran yang mengharuskan persentase kandidat yang memenuhi syarat untuk dinilai positif di setiap grup. Hal ini paling sering direkomendasikan dalam hal mengklasifikasikan hasil positif, seperti pengajuan pinjaman, penerimaan sekolah, atau apakah konten ramah anak.
Tingkat Negatif Benar / Tingkat Positif Palsu
- Definisi: Persentase titik data negatif (seperti yang diberi label pada kebenaran dasar) yang diklasifikasikan dengan benar sebagai negatif, atau persentase titik data negatif yang salah diklasifikasikan sebagai positif
- Berkaitan dengan: Kesetaraan Peluang (untuk kelas negatif), ketika setara antar subgrup
- Kapan menggunakan metrik ini: Kasus penggunaan kewajaran ketika tingkat kesalahan (atau kesalahan mengklasifikasikan sesuatu sebagai positif) lebih memprihatinkan dibandingkan mengklasifikasikan hal positif. Hal ini paling umum terjadi pada kasus pelecehan, dimana tindakan positif sering kali berujung pada tindakan negatif. Ini juga penting untuk Teknologi Analisis Wajah seperti deteksi wajah atau atribut wajah
Akurasi & AUC
- Berkaitan dengan: Paritas Prediktif, ketika sama antar subgrup
- Kapan menggunakan metrik ini: Kasus di mana ketepatan tugas adalah hal yang paling penting (tidak harus pada arah tertentu), seperti identifikasi wajah atau pengelompokan wajah
Tingkat Penemuan Palsu
- Definisi: Persentase titik data negatif (sebagaimana diberi label pada kebenaran dasar) yang salah diklasifikasikan sebagai positif dari seluruh titik data yang diklasifikasikan sebagai positif. Ini juga merupakan kebalikan dari PPV
- Berkaitan dengan: Paritas Prediktif (juga dikenal sebagai Kalibrasi), jika setara antar subgrup
- Kapan menggunakan metrik ini: Kasus ketika pecahan prediksi positif yang benar harus sama di seluruh subgrup
Tingkat Kelalaian yang Salah
- Definisi: Persentase titik data positif (sebagaimana diberi label pada kebenaran dasar) yang salah diklasifikasikan sebagai negatif dari seluruh titik data yang diklasifikasikan sebagai negatif. Ini juga merupakan kebalikan dari NPV
- Berkaitan dengan: Paritas Prediktif (juga dikenal sebagai Kalibrasi), jika setara antar subgrup
- Kapan menggunakan metrik ini: Kasus ketika pecahan prediksi negatif yang benar harus sama di seluruh subgrup
Flip Rate Keseluruhan / Flip Rate Prediksi Positif ke Negatif / Flip Rate Prediksi Negatif ke Positif
- Definisi: Probabilitas pengklasifikasi memberikan prediksi berbeda jika atribut identitas pada fitur tertentu diubah.
- Berkaitan dengan: Keadilan kontrafaktual
- Kapan menggunakan metrik ini: Saat menentukan apakah prediksi model berubah ketika atribut sensitif yang dirujuk dalam contoh dihapus atau diganti. Jika ya, pertimbangkan untuk menggunakan teknik Counterfactual Logit Pairing dalam pustaka Remediasi Model Tensorflow.
Jumlah Flip / Jumlah Flip Prediksi Positif ke Negatif / Jumlah Flip Prediksi Negatif ke Positif *
- Definisi: Berapa kali pengklasifikasi memberikan prediksi berbeda jika istilah identitas dalam contoh tertentu diubah.
- Berkaitan dengan: Keadilan kontrafaktual
- Kapan menggunakan metrik ini: Saat menentukan apakah prediksi model berubah ketika atribut sensitif yang dirujuk dalam contoh dihapus atau diganti. Jika ya, pertimbangkan untuk menggunakan teknik Counterfactual Logit Pairing dalam pustaka Remediasi Model Tensorflow.
Contoh metrik mana yang harus dipilih
- Kegagalan mendeteksi wajah secara sistematis di aplikasi kamera dapat menyebabkan pengalaman pengguna yang negatif bagi kelompok pengguna tertentu. Dalam kasus ini, kesalahan negatif dalam sistem deteksi wajah dapat menyebabkan kegagalan produk, sedangkan kesalahan positif (mendeteksi wajah padahal tidak ada) dapat menimbulkan sedikit gangguan bagi pengguna. Oleh karena itu, mengevaluasi dan meminimalkan tingkat negatif palsu penting untuk kasus penggunaan ini.
- Menandai komentar teks dari orang-orang tertentu secara tidak adil sebagai “spam” atau “toksisitas tinggi” dalam sistem moderasi akan menyebabkan suara-suara tertentu dibungkam. Di satu sisi, tingginya angka positif palsu menyebabkan penyensoran yang tidak adil. Di sisi lain, tingkat false negative yang tinggi dapat menyebabkan penyebaran konten beracun dari kelompok tertentu, yang dapat merugikan pengguna dan menimbulkan kerugian representasi bagi kelompok tersebut. Oleh karena itu, kedua metrik tersebut penting untuk dipertimbangkan, selain metrik yang memperhitungkan semua jenis kesalahan seperti akurasi atau AUC.
Tidak melihat metrik yang Anda cari?
Ikuti dokumentasi di sini untuk menambahkan metrik khusus milik Anda.
Catatan akhir
Kesenjangan dalam metrik antara dua kelompok dapat menjadi tanda bahwa model Anda mungkin memiliki penyimpangan yang tidak adil . Anda harus menafsirkan hasil Anda sesuai dengan kasus penggunaan Anda. Namun, tanda pertama bahwa Anda mungkin memperlakukan sekelompok pengguna secara tidak adil adalah ketika metrik antara kelompok pengguna tersebut dan keseluruhan pengguna Anda berbeda secara signifikan. Pastikan untuk memperhitungkan interval kepercayaan saat melihat perbedaan ini. Jika Anda memiliki terlalu sedikit sampel pada bagian tertentu, perbedaan antar metrik mungkin tidak akurat.
Mencapai kesetaraan antar kelompok berdasarkan Indikator Kewajaran tidak berarti model tersebut adil. Sistem sangatlah kompleks, dan mencapai kesetaraan pada satu (atau bahkan semua) metrik yang disediakan tidak dapat menjamin Kewajaran.
Evaluasi kewajaran harus dilakukan selama proses pengembangan dan pasca peluncuran (bukan sehari sebelum peluncuran). Sama seperti peningkatan produk Anda yang merupakan proses berkelanjutan dan dapat disesuaikan berdasarkan umpan balik pengguna dan pasar, menjadikan produk Anda adil dan merata memerlukan perhatian berkelanjutan. Ketika berbagai aspek model berubah, seperti data pelatihan, masukan dari model lain, atau desain itu sendiri, metrik keadilan kemungkinan besar akan berubah. “Menghapus batasan” sekali saja tidak cukup untuk memastikan bahwa semua komponen yang berinteraksi tetap utuh seiring berjalannya waktu.
Pengujian permusuhan harus dilakukan untuk contoh-contoh yang jarang dan berbahaya. Evaluasi keadilan tidak dimaksudkan untuk menggantikan pengujian permusuhan. Pertahanan tambahan terhadap contoh-contoh yang jarang terjadi dan ditargetkan sangatlah penting karena contoh-contoh ini mungkin tidak akan terwujud dalam data pelatihan atau evaluasi.