MinDiff は、2 つの分布を均等化しようとするモデル修復手法です。実際には、分布の違いにペナルティを課すことで、データのさまざまなスライス間でエラー率のバランスをとるために使用できます。
通常、MinDiff は、機密クラスに属するデータのスライスとパフォーマンスの良いスライスの間の偽陽性率 (FPR) または偽陰性率 (FNR) の差を最小限に抑えるなど、グループの公平性を確保しようとするときに適用します。公平性メトリクスの詳細については、この主題に関する文献を参照してください。 1 2 3
MinDiff はどのように機能しますか?
データセットからの 2 つの例のセットが与えられると、MinDiff はトレーニング中に 2 つのセット間のスコアの分布の違いについてモデルにペナルティを与えます。予測スコアに基づく 2 つのセットの区別がつきにくいほど、適用されるペナルティは小さくなります。
ペナルティは、モデルがトレーニングに使用している損失にコンポーネントを追加することによって適用されます。これは、モデル予測の分布の違いの測定値と考えることができます。モデルはトレーニング中に、以下のグラフに示すように、分布を近づけることによってペナルティを最小限に抑えようとします。
MinDiff を適用すると、元のタスクのパフォーマンスに関してトレードオフが発生する可能性があります。 MinDiff は、製品のニーズを超えてパフォーマンスを低下させずに効果的ですが、MinDiff のパフォーマンスと有効性のバランスをとる決定は、製品所有者が意図的に行う必要があります。 MinDiff の実装方法を示す例については、モデル修復ケーススタディ ノートブックを参照してください。
リソース
テキスト分類モデルに MinDiff を適用するチュートリアルについては、 「 MinDiff Keras ノートブック 」を参照してください。
TensorFlow ブログの MinDiff に関するブログ投稿については、 「MinDiff を適用してモデルを改善する」のブログ投稿を参照してください。
完全なモデル修復ライブラリについては、 model-remediation Github リポジトリを参照してください。
Dwork, C.、Hardt, M.、Pitassi, T.、Reingold, O.、Zemel, R. (2011)。意識による公平性。 ↩
ハート、M.、プライス、E.、スレブロ、N. (2016)。教師あり学習における機会の平等。 ↩
Chouldechova、A. (2016)。影響が異なる公正な予測: 再犯予測手段におけるバイアスの研究。 ↩