Responsible AI Toolkit

モデル改善とは

機械学習モデルのパフォーマンスのスライス評価を行うと、特定のデータスライスでモデルのパフォーマンスが低いことに気づく場合があります。この種の不均等なパフォーマンスにより、母集団中の脆弱なサブセットに対して不公平で有害な結果が導かれる可能性があります。通常、このようなバイアスの懸念に対処するための技術的介入として、主に次の 3 種類が使用されます。

入力データの変更: より多くのデータを収集する、合成データを生成する、複数のスライスの重みやサンプリングレートを調整するなど。¹
モデルへの介入: モデルの目標を導入または変更する、制約を追加するなどにより、モデル自体を変更する。²
結果の後処理: モデルの出力を変更する、出力の解釈を変更するなどにより、指標全体にわたるパフォーマンスを向上させる。³

from tensorflow_model_remediation import min_diff
import tensorflow as tf

# Start by defining a Keras model.
original_model = ...

# Set the MinDiff weight and choose a loss.
min_diff_loss = min_diff.losses.MMDLoss()
min_diff_weight = 1.0  # Hyperparamater to be tuned.

# Create a MinDiff model.
min_diff_model = min_diff.keras.MinDiffModel(
original_model, min_diff_loss, min_diff_weight)

# Compile the MinDiff model normally.
min_diff_model.compile(...)

# Create a MinDiff Dataset and train the min_diff_model.
min_diff_model.fit(min_diff_dataset, ...)

MinDiff とは

MinDiff とは、2 つの分布の均等化を図るモデル改善手法です。実際には、データスライス間のエラー率を均等化するために使用でき、分布間の差異にペナルティを課すという方法をとります。

通常 MinDiff を適用するのは、感度の高いクラスに属するデータスライスと、より優れたパフォーマンスのスライス間で、偽陽性率（FPR）または偽陰性率（FNR）の差異の最小化を図る場合です。公平性指標の詳細については、このテーマに関する文献をご確認ください。^{4 5 6}

MinDiff の仕組み

データセットから 2 組のサンプルが与えられると、MinDiff はトレーニングの間、両者のスコア分布間の差異に対してモデルにペナルティを課します。両者の予測スコア間の差異が小さいほど、課されるペナルティも小さくなります。

このペナルティは、モデルのトレーニングに使用される損失にコンポーネントを追加することにより課されます。これは、モデル予測の分布の差異を測定した値と考えることができます。モデルはトレーニングの間、両者の分布を上図のように近づけることによってペナルティの最小化を図ります。

MinDiff を適用すると、元のタスクのパフォーマンスに影響が及ぶ可能性があります。多くの実例において、MinDiff はプロダクトに必要なパフォーマンスを損なうことなく有効に機能しています。ただし、適用対象によって影響は異なるため、プロダクトオーナーは慎重に判断する必要があります。MinDiff の実装方法の例については、こちらのノートブックチュートリアルをご覧ください。

¹Zhang, G.、Bai, B.、Zhang, J.、Bai, K.、Zhu, C.、Zhao, T.（2020）、Demographics Should Not Be the Reason of Toxicity: Mitigating Discrimination in Text Classifications with Instance Weighting
²Prost, F.、Qian H.、Chen, Q.、Chi, E.、Chen, J.、Beutel, A.（2019）、Toward a better trade-off between performance and fairness with kernel-based distribution matching
³Alabdulmohsin, I.（2020）、Fair Classification via Unconstrained Optimization
⁴Dwork, C.、Hardt, M.、Pitassi, T.、Reingold, O.、Zemel, R.（2011）、Fairness Through Awareness
⁵Hardt, M.、Price, E.、Srebro, N.（2016）、Equality of Opportunity in Supervised Learning
⁶Chouldechova, A.（2016）、Fair prediction with disparate impact: A study of bias in recidivism prediction instruments

モデル改善とは

MinDiff とは

MinDiff の仕組み

リソース

テキスト分類モデルに MinDiff を適用してみる

MinDiff に関する TensorFlow ブログ

GitHub で使用する Model Remediation Library