Dans ce didacticiel, nous explorerons l'utilisation de l'apprentissage contradictoire ( Goodfellow et al., 2014 ) pour la classification d'images à l'aide du cadre d'apprentissage structuré neuronal (NSL).
L'idée centrale de l'apprentissage contradictoire est de former un modèle avec des données perturbées de manière contradictoire (appelées exemples contradictoires) en plus des données de formation organiques. À l'œil humain, ces exemples contradictoires ressemblent à l'original, mais la perturbation conduira le modèle à être confus et à faire des prédictions ou des classifications incorrectes. Les exemples contradictoires sont construits pour tromper intentionnellement le modèle en faisant de mauvaises prédictions ou classifications. En s'entraînant avec de tels exemples, le modèle apprend à être robuste contre les perturbations contradictoires lors de la réalisation de prédictions.
Dans ce didacticiel, nous illustrons la procédure suivante d'application de l'apprentissage contradictoire pour obtenir des modèles robustes à l'aide du cadre d'apprentissage structuré neuronal :
- Créez un réseau de neurones comme modèle de base. Dans ce didacticiel, le modèle de base est créé avec l'API fonctionnelle
; cette procédure est également compatible avec les modèles créés par les API séquentielles et de sous-tf.keras
. Pour plus d'informations sur les modèles Keras dans TensorFlow, consultez cette documentation . - Enveloppez le modèle de base avec la classe wrapper
, qui est fournie par le framework NSL, pour créer une nouvelle instancetf.keras.Model
. Ce nouveau modèle inclura la perte contradictoire comme terme de régularisation dans son objectif de formation. - Convertissez des exemples dans les données de formation en dictionnaires de fonctionnalités.
- Former et évaluer le nouveau modèle.
Récapitulatif pour les débutants
Il existe une explication vidéo correspondante sur l'apprentissage contradictoire pour la classification des images dans la série YouTube TensorFlow Neural Structured Learning. Ci-dessous, nous avons résumé les concepts clés expliqués dans cette vidéo, en développant l'explication fournie dans la section Présentation ci-dessus.
Le cadre NSL optimise conjointement les caractéristiques d'image et les signaux structurés pour aider les réseaux de neurones à mieux apprendre. Cependant, que se passe-t-il s'il n'y a pas de structure explicite disponible pour entraîner le réseau de neurones ? Ce didacticiel explique une approche impliquant la création de voisins contradictoires (modifiés à partir de l'échantillon d'origine) pour construire dynamiquement une structure.
Premièrement, les voisins contradictoires sont définis comme des versions modifiées de l'image de l'échantillon appliquées avec de petites perturbations qui induisent en erreur un réseau de neurones en produisant des classifications inexactes. Ces perturbations soigneusement conçues sont généralement basées sur la direction du gradient inverse et sont destinées à confondre le réseau neuronal pendant l'entraînement. Les humains peuvent ne pas être en mesure de faire la différence entre une image échantillon et son voisin contradictoire généré. Cependant, pour le réseau de neurones, les perturbations appliquées sont efficaces pour conduire à une conclusion inexacte.
Les voisins antagonistes générés sont ensuite connectés à l'échantillon, construisant ainsi dynamiquement une structure bord par bord. En utilisant cette connexion, les réseaux neuronaux apprennent à maintenir les similitudes entre l'échantillon et les voisins adverses tout en évitant la confusion résultant d'erreurs de classification, améliorant ainsi la qualité et la précision du réseau neuronal global.
Le segment de code ci-dessous est une explication de haut niveau des étapes impliquées tandis que le reste de ce didacticiel approfondit et approfondit la technicité.
- Lire et préparer les données. Chargez le jeu de données MNIST et normalisez les valeurs des caractéristiques pour rester dans la plage [0,1]
import neural_structured_learning as nsl
(x_train, y_train), (x_train, y_train) = tf.keras.datasets.mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
- Construire le réseau neuronal. Un modèle de base Sequential Keras est utilisé pour cet exemple.
model = tf.keras.Sequential(...)
- Configurez le modèle contradictoire. Y compris les hyperparamètres : multiplicateur appliqué sur la régularisation contradictoire, valeurs différentes choisies empiriquement pour la taille du pas/taux d'apprentissage. Invoquez la régularisation contradictoire avec une classe wrapper autour du réseau de neurones construit.
adv_config = nsl.configs.make_adv_reg_config(multiplier=0.2, adv_step_size=0.05)
adv_model = nsl.keras.AdversarialRegularization(model, adv_config)
- Concluez avec le flux de travail Keras standard : compilez, adaptez, évaluez.
adv_model.compile(optimizer='adam', loss='sparse_categorizal_crossentropy', metrics=['accuracy'])
adv_model.fit({'feature': x_train, 'label': y_train}, epochs=5)
adv_model.evaluate({'feature': x_test, 'label': y_test})
Ce que vous voyez ici est un apprentissage contradictoire activé en 2 étapes et 3 lignes de code simples. C'est la simplicité du cadre d'apprentissage structuré neuronal. Dans les sections suivantes, nous développons cette procédure.
Installez le package Neural Structured Learning.
pip install --quiet neural-structured-learning
Importer des bibliothèques. Nous neural_structured_learning
en nsl
import matplotlib.pyplot as plt
import neural_structured_learning as nsl
import numpy as np
import tensorflow as tf
import tensorflow_datasets as tfds
Nous collectons et expliquons les hyperparamètres (dans un objet HParams
) pour la formation et l'évaluation du modèle.
Entrée sortie:
: La forme du tenseur d'entrée. Chaque image est de 28 x 28 pixels avec 1 canal. -
: Il y a un total de 10 classes, correspondant à 10 chiffres [0-9].
Modèle d'architecture :
: Une liste de nombres, chacun spécifiant le nombre de filtres dans une couche convolutive. -
: La taille de la fenêtre de convolution 2D, partagée par toutes les couches convolutives. -
: Facteurs pour réduire l'échelle de l'image dans chaque couche max-pooling. -
: le nombre d'unités (c'est-à-dire la largeur) de chaque couche entièrement connectée.
Formation et évaluation :
: taille du lot utilisé pour la formation et l'évaluation. -
: Le nombre d'époques d'entraînement.
Apprentissage contradictoire :
: le poids de la perte adverse dans l'objectif d'entraînement, par rapport à la perte étiquetée. -
: L'ampleur de la perturbation contradictoire. -
: La norme pour mesurer l'ampleur de la perturbation contradictoire.
class HParams(object):
def __init__(self):
self.input_shape = [28, 28, 1]
self.num_classes = 10
self.conv_filters = [32, 64, 64]
self.kernel_size = (3, 3)
self.pool_size = (2, 2)
self.num_fc_units = [64]
self.batch_size = 32
self.epochs = 5
self.adv_multiplier = 0.2
self.adv_step_size = 0.2
self.adv_grad_norm = 'infinity'
HPARAMS = HParams()
Jeu de données MNIST
Le jeu de données MNIST contient des images en niveaux de gris de chiffres manuscrits (de '0' à '9'). Chaque image montre un chiffre à basse résolution (28 x 28 pixels). La tâche consiste à classer les images en 10 catégories, une par chiffre.
Ici, nous chargeons le jeu de données MNIST à partir de TensorFlow Datasets . Il gère le téléchargement des données et la construction d'un tf.data.Dataset
. L'ensemble de données chargé comporte deux sous-ensembles :
avec 60 000 exemples, et -
avec 10 000 exemples.
Les exemples des deux sous-ensembles sont stockés dans des dictionnaires de fonctionnalités avec les deux clés suivantes :
: tableau de valeurs de pixels, allant de 0 à 255. -
: Label Groundtruth, allant de 0 à 9.
datasets = tfds.load('mnist')
train_dataset = datasets['train']
test_dataset = datasets['test']
base model accuracy: 0.466300 adv-regularized model accuracy: 0.954600
Nous pouvons voir que la précision du modèle de base chute considérablement (de 99 % à environ 50 %) lorsque l'entrée est perturbée de manière contradictoire. En revanche, la précision du modèle contradictoire-régularisé ne se dégrade que peu (de 99% à 95%). Cela démontre l'efficacité de l'apprentissage contradictoire sur l'amélioration de la robustesse du modèle.
Exemples d'images perturbées par l'adversaire
Ici, nous examinons les images perturbées par l'adversaire. Nous pouvons voir que les images perturbées montrent toujours des chiffres reconnaissables par l'homme, mais peuvent tromper avec succès le modèle de base.
batch_index = 0
batch_image = perturbed_images[batch_index]
batch_label = labels[batch_index]
batch_pred = predictions[batch_index]
batch_size = HPARAMS.batch_size
n_col = 4
n_row = (batch_size + n_col - 1) // n_col
print('accuracy in batch %d:' % batch_index)
for name, pred in batch_pred.items():
print('%s model: %d / %d' % (name, np.sum(batch_label == pred), batch_size))
plt.figure(figsize=(15, 15))
for i, (image, y) in enumerate(zip(batch_image, batch_label)):
y_base = batch_pred['base'][i]
y_adv = batch_pred['adv-regularized'][i]
plt.subplot(n_row, n_col, i+1)
plt.title('true: %d, base: %d, adv: %d' % (y, y_base, y_adv))
plt.imshow(tf.keras.utils.array_to_img(image), cmap='gray')
accuracy in batch 0: base model: 11 / 32 adv-regularized model: 31 / 32
Nous avons démontré l'utilisation de l'apprentissage contradictoire pour la classification d'images en utilisant le cadre d'apprentissage structuré neuronal (NSL). Nous encourageons les utilisateurs à expérimenter différents paramètres contradictoires (dans des hyper-paramètres) et à voir comment ils affectent la robustesse du modèle.