Kapan saya harus menggunakan MinDiff?
Terapkan MinDiff jika model Anda secara umum berkinerja baik, tetapi lebih sering menghasilkan kesalahan berbahaya pada contoh yang termasuk dalam grup sensitif, dan Anda ingin menutup kesenjangan kinerja. Kelompok kepentingan yang sensitif mungkin berbeda-beda bergantung pada kasus penggunaan Anda, namun sering kali mencakup kelas yang dilindungi, seperti ras, agama, gender, orientasi seksual, dan banyak lagi. Di seluruh dokumen ini, kami akan menggunakan “grup sensitif” untuk merujuk pada kumpulan contoh apa pun yang termasuk dalam kelas yang dilindungi.
Ada dua kondisi utama dalam menggunakan MinDiff untuk mengatasi potongan data yang berkinerja buruk:
- Anda telah menyempurnakan dan mengevaluasi model Anda, mengidentifikasi metrik yang menunjukkan bagian data yang berkinerja buruk. Hal ini harus dilakukan sebelum menerapkan remediasi model.
- Anda memiliki, atau dapat memperoleh, sejumlah contoh berlabel relevan yang termasuk dalam kelompok berkinerja buruk (detail selengkapnya di bawah).
MinDiff adalah salah satu dari banyak teknik untuk memulihkan perilaku yang tidak setara. Secara khusus, ini mungkin merupakan pilihan yang baik ketika Anda mencoba untuk secara langsung menyamakan kinerja antar kelompok. MinDiff dapat digunakan bersama dengan pendekatan lain, seperti augmentasi data dan lainnya, yang dapat memberikan hasil yang lebih baik. Namun, jika Anda perlu memprioritaskan teknik mana yang akan diinvestasikan, Anda harus melakukannya sesuai dengan kebutuhan produk Anda.
Saat menerapkan MinDiff, Anda mungkin melihat kinerja menurun atau sedikit bergeser pada grup dengan kinerja terbaik, seiring dengan peningkatan pada grup yang berkinerja buruk. Pengorbanan ini sudah diperkirakan dan harus dievaluasi dalam konteks kebutuhan produk Anda. Dalam praktiknya, kita sering melihat bahwa MinDiff tidak menyebabkan irisan berkinerja terbaik turun di bawah tingkat yang dapat diterima, namun hal ini bersifat spesifik pada aplikasi dan merupakan keputusan yang perlu dibuat oleh pemilik produk.
Pada tipe model apa saya dapat menerapkan MinDiff?
MinDiff telah terbukti efektif secara konsisten ketika diterapkan pada pengklasifikasi biner. Mengadaptasi metode ini untuk aplikasi lain dimungkinkan, namun belum sepenuhnya diuji. Beberapa pekerjaan telah dilakukan untuk menunjukkan keberhasilan dalam tugas multiklasifikasi dan pemeringkatan 1 tetapi penggunaan MinDiff pada model ini atau jenis model lainnya harus dianggap eksperimental.
Pada metrik apa saya dapat menerapkan MinDiff?
MinDiff mungkin merupakan solusi yang baik ketika metrik yang Anda coba samakan di seluruh grup adalah rasio positif palsu (FPR) , atau rasio negatif palsu (FNR) , namun mungkin bisa digunakan untuk metrik lainnya. Sebagai aturan umum, MinDiff dapat berfungsi jika metrik yang Anda targetkan merupakan hasil dari perbedaan distribusi skor antara contoh yang termasuk dalam kelompok sensitif dan contoh yang tidak termasuk dalam kelompok sensitif.
Membangun kumpulan data MinDiff Anda
Saat bersiap berlatih dengan MinDiff, Anda perlu menyiapkan tiga kumpulan data terpisah. Seperti halnya pelatihan reguler, kumpulan data MinDiff Anda harus mewakili pengguna yang dilayani model Anda. MinDiff mungkin berfungsi tanpa ini tetapi Anda harus ekstra hati-hati dalam kasus seperti itu.
Dengan asumsi Anda mencoba meningkatkan FPR model Anda untuk contoh yang termasuk dalam kelas sensitif, Anda memerlukan:
- Set pelatihan asli - Kumpulan data asli yang digunakan untuk melatih model dasar Anda
- Kumpulan sensitif MinDiff - Kumpulan data contoh yang termasuk dalam kelas sensitif dengan hanya label kebenaran dasar negatif. Contoh-contoh ini hanya akan digunakan untuk menghitung kerugian MinDiff.
- Kumpulan non-sensitif MinDiff - Kumpulan data contoh yang tidak termasuk dalam kelas sensitif dengan hanya label kebenaran dasar negatif. Contoh-contoh ini hanya akan digunakan untuk menghitung kerugian MinDiff.
Saat menggunakan perpustakaan, Anda akan menggabungkan ketiga kumpulan data ini menjadi satu kumpulan data, yang akan berfungsi sebagai kumpulan pelatihan baru Anda.
Memilih contoh untuk MinDiff
Contoh di atas mungkin tampak berlawanan dengan intuisi jika Anda membuat serangkaian contoh yang diberi label negatif jika perhatian utama Anda adalah pada disparitas dalam tingkat positif palsu . Namun, ingatlah bahwa prediksi positif palsu berasal dari contoh berlabel negatif yang salah diklasifikasikan sebagai positif.
Saat mengumpulkan data untuk MinDiff, Anda harus memilih contoh di mana perbedaan kinerja terlihat jelas. Dalam contoh di atas, hal ini berarti memilih contoh yang diberi label negatif untuk mengatasi FPR. Seandainya kami tertarik untuk menargetkan FNR, kami perlu memilih contoh-contoh yang diberi label positif.
Berapa banyak data yang saya perlukan?
Pertanyaan bagus--itu tergantung pada kasus penggunaan Anda! Berdasarkan arsitektur model, distribusi data, dan konfigurasi MinDiff Anda, jumlah data yang dibutuhkan dapat sangat bervariasi. Dalam aplikasi sebelumnya, kita telah melihat MinDiff bekerja dengan baik dengan 5.000 contoh di setiap set pelatihan MinDiff (set 2 dan 3 di bagian sebelumnya). Dengan lebih sedikit data, ada peningkatan risiko penurunan performa, namun hal ini mungkin minimal atau dapat diterima dalam batasan batasan produksi Anda. Setelah menerapkan MinDiff, Anda perlu mengevaluasi hasil Anda secara menyeluruh untuk memastikan kinerja yang dapat diterima. Jika data tersebut tidak dapat diandalkan, atau tidak memenuhi ekspektasi kinerja, Anda mungkin masih ingin mempertimbangkan untuk mengumpulkan lebih banyak data.
Kapan MinDiff tidak cocok untuk saya?
MinDiff adalah teknik ampuh yang dapat memberikan hasil yang mengesankan, namun ini tidak berarti bahwa ini adalah metode yang tepat untuk semua situasi. Menerapkannya secara sembarangan tidak menjamin Anda akan mendapatkan solusi yang memadai.
Di luar persyaratan yang dibahas di atas, ada beberapa kasus di mana MinDiff mungkin secara teknis layak, namun tidak sesuai. Anda harus selalu merancang alur kerja ML Anda sesuai dengan praktik umum yang direkomendasikan. Misalnya, jika tugas model Anda tidak jelas, kebutuhan produk tidak jelas, atau label contoh Anda terlalu miring, Anda harus memprioritaskan penanganan masalah ini. Demikian pula, jika Anda tidak memiliki definisi yang jelas tentang kelompok sensitif, atau tidak dapat menentukan apakah contoh termasuk dalam kelompok sensitif, Anda tidak akan dapat menerapkan MinDiff secara efektif.
Pada tingkat yang lebih tinggi, Anda harus selalu mempertimbangkan apakah produk Anda sesuai untuk digunakan untuk ML. Jika ya, pertimbangkan potensi dampak buruk yang ditimbulkannya terhadap pengguna. Upaya menerapkan TPPU yang bertanggung jawab merupakan upaya multi-aspek yang bertujuan untuk mengantisipasi berbagai potensi bahaya; MinDiff dapat membantu memitigasi beberapa hal ini, namun semua hasil patut dipertimbangkan dengan cermat.
1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). Kewajaran dalam Pemeringkatan Rekomendasi melalui Perbandingan Berpasangan.