Introdução
É possível integrar o MinDiff diretamente na implementação do seu modelo. Enquanto isso não tem a conveniência de usar MinDiffModel
, esta opção oferece o mais alto nível de controle que pode ser particularmente útil quando o seu modelo é uma subclasse de tf.keras.Model
.
Este guia demonstra como você pode integrar MinDiff diretamente na implementação de um modelo personalizado, adicionando ao train_step
método.
Configurar
pip install -q --upgrade tensorflow-model-remediation
import tensorflow as tf
tf.get_logger().setLevel('ERROR') # Avoid TF warnings.
from tensorflow_model_remediation import min_diff
from tensorflow_model_remediation.tools.tutorials_utils import uci as tutorials_utils
Primeiro, baixe os dados. Para concisão, a lógica de entrada preparação foi fatoramos em funções auxiliares como descrito no guia de preparação de entrada . Você pode ler o guia completo para obter detalhes sobre esse processo.
# Original Dataset for training, sampled at 0.3 for reduced runtimes.
train_df = tutorials_utils.get_uci_data(split='train', sample=0.3)
train_ds = tutorials_utils.df_to_dataset(train_df, batch_size=128)
# Dataset needed to train with MinDiff.
train_with_min_diff_ds = (
tutorials_utils.get_uci_with_min_diff_dataset(split='train', sample=0.3))
Personalizações de modelos personalizados originais
tf.keras.Model
é projetado para ser facilmente customizado via subclassificação. Isso geralmente envolve a mudança que acontece na chamada para fit
como descrito aqui .
Este guia usa uma implementação personalizada onde o train_step
se assemelha ao padrão tf.keras.Model.train_step
. Normalmente, não haveria nenhum benefício em fazê-lo, mas aqui ajudará a demonstrar como integrar o MinDiff.
class CustomModel(tf.keras.Model):
def train_step(self, data):
# Unpack the data.
x, y, sample_weight = tf.keras.utils.unpack_x_y_sample_weight(data)
with tf.GradientTape() as tape:
y_pred = self(x, training=True) # Forward pass.
loss = self.compiled_loss(
y, y_pred, sample_weight, regularization_losses=self.losses)
# Compute the loss value.
loss = self.compiled_loss(
y, y_pred, sample_weight, regularization_losses=self.losses)
# Compute gradients and update weights.
self.optimizer.minimize(loss, self.trainable_variables, tape=tape)
# Update and return metrics.
self.compiled_metrics.update_state(y, y_pred, sample_weight)
return {m.name: m.result() for m in self.metrics}
Treinar o modelo como se fosse um típico Model
usando a API funcional.
model = tutorials_utils.get_uci_model(model_class=CustomModel) # Use CustomModel.
model.compile(optimizer='adam', loss='binary_crossentropy')
_ = model.fit(train_ds, epochs=1)
77/77 [==============================] - 3s 22ms/step - loss: 0.7273
Integrando MinDiff diretamente em seu modelo
Adicionando MinDiff ao train_step
Para integrar MinDiff, você vai precisar adicionar algumas linhas ao CustomModel
que é renomeado aqui como CustomModelWithMinDiff
.
Para maior clareza, este guia usa um sinalizador booleano chamado apply_min_diff
. Todo o código relevante para MinDiff só será executado se ele é definido como True
. Se for definido como False
, em seguida, o modelo iria se comportar exatamente o mesmo que CustomModel
.
min_diff_loss_fn = min_diff.losses.MMDLoss() # Hard coded for convenience.
min_diff_weight = 2 # Arbitrary number for example, hard coded for convenience.
apply_min_diff = True # Flag to help show where the additional lines are.
class CustomModelWithMinDiff(tf.keras.Model):
def train_step(self, data):
# Unpack the data.
x, y, sample_weight = tf.keras.utils.unpack_x_y_sample_weight(data)
# Unpack the MinDiff data.
if apply_min_diff:
min_diff_data = min_diff.keras.utils.unpack_min_diff_data(x)
min_diff_x, membership, min_diff_sample_weight = (
tf.keras.utils.unpack_x_y_sample_weight(min_diff_data))
x = min_diff.keras.utils.unpack_original_inputs(x)
with tf.GradientTape() as tape:
y_pred = self(x, training=True) # Forward pass.
loss = self.compiled_loss(
y, y_pred, sample_weight, regularization_losses=self.losses)
# Compute the loss value.
loss = self.compiled_loss(
y, y_pred, sample_weight, regularization_losses=self.losses)
# Calculate and add the min_diff_loss. This must be done within the scope
# of tf.GradientTape().
if apply_min_diff:
min_diff_predictions = self(min_diff_x, training=True)
min_diff_loss = min_diff_weight * min_diff_loss_fn(
min_diff_predictions, membership, min_diff_sample_weight)
loss += min_diff_loss
# Compute gradients and update weights.
self.optimizer.minimize(loss, self.trainable_variables, tape=tape)
# Update and return metrics.
self.compiled_metrics.update_state(y, y_pred, sample_weight)
return {m.name: m.result() for m in self.metrics}
O treinamento com este modelo é exatamente igual ao anterior, com exceção do conjunto de dados usado.
model = tutorials_utils.get_uci_model(model_class=CustomModelWithMinDiff)
model.compile(optimizer='adam', loss='binary_crossentropy')
_ = model.fit(train_with_min_diff_ds, epochs=1)
77/77 [==============================] - 4s 30ms/step - loss: 0.7799
Reformulando sua entrada (opcional)
Dado que essa abordagem fornece controle total, você pode aproveitar esta oportunidade para reformular a entrada em um formato um pouco mais limpo. Ao usar MinDiffModel
, o min_diff_data
precisa ser embalado para o primeiro componente de cada lote. Este é o caso com o train_with_min_diff_ds
conjunto de dados.
for x, y in train_with_min_diff_ds.take(1):
print('Type of x:', type(x)) # MinDiffPackedInputs
print('Type of y:', type(y)) # Tensor (original labels)
Type of x: <class 'tensorflow_model_remediation.min_diff.keras.utils.input_utils.MinDiffPackedInputs'> Type of y: <class 'tensorflow.python.framework.ops.EagerTensor'>
Com esse requisito levantado, você pode reorganizar os dados em uma estrutura um pouco mais intuitiva com os dados originais e MinDiff separados de forma limpa.
def _reformat_input(inputs, original_labels):
min_diff_data = min_diff.keras.utils.unpack_min_diff_data(inputs)
original_inputs = min_diff.keras.utils.unpack_original_inputs(inputs)
original_data = (original_inputs, original_labels)
return {
'min_diff_data': min_diff_data,
'original_data': original_data}
customized_train_with_min_diff_ds = train_with_min_diff_ds.map(_reformat_input)
Esta etapa é totalmente opcional, mas pode ser útil para organizar melhor os dados. Se você fizer isso, a única diferença na forma como você implementar CustomModelWithMinDiff
será como você descompactar data
no início.
class CustomModelWithMinDiff(tf.keras.Model):
def train_step(self, data):
# Unpack the MinDiff data from the custom structure.
if apply_min_diff:
min_diff_data = data['min_diff_data']
min_diff_x, membership, min_diff_sample_weight = (
tf.keras.utils.unpack_x_y_sample_weight(min_diff_data))
data = data['original_data']
... # possible preprocessing or validation on data before unpacking.
x, y, sample_weight = tf.keras.utils.unpack_x_y_sample_weight(data)
...
Com esta última etapa, você pode controlar totalmente o formato de entrada e como ele é usado no modelo para aplicar MinDiff.
Recursos adicionais
- Para um debate aprofundado sobre a avaliação fairness ver a orientação Fairness Indicators
- Para informações gerais sobre Remediação e MinDiff, consulte a visão geral de remediação .
- Para detalhes sobre os requisitos que cercam MinDiff ver este guia .
- Para ver um tutorial end-to-end em usar MinDiff em Keras, consulte este tutorial .