Regolarizzazione del contraddittorio per la classificazione delle immagini


In questo tutorial, esploreremo l'uso dell'apprendimento contraddittorio ( Goodfellow et al., 2014 ) per la classificazione delle immagini utilizzando il framework Neural Structured Learning (NSL).

L'idea centrale dell'apprendimento contraddittorio è addestrare un modello con dati contraddittori (chiamati esempi contraddittori) oltre ai dati di formazione organica. All'occhio umano, questi esempi contraddittori sembrano gli stessi dell'originale, ma la perturbazione causerà la confusione del modello e farà previsioni o classificazioni errate. Gli esempi contraddittori sono costruiti per indurre intenzionalmente il modello a fare previsioni o classificazioni sbagliate. Allenandosi con tali esempi, il modello impara a essere robusto contro le perturbazioni del contraddittorio quando fa previsioni.

In questo tutorial, illustriamo la seguente procedura di applicazione dell'apprendimento contraddittorio per ottenere modelli robusti utilizzando il framework di apprendimento strutturato neurale:

  1. Creare una rete neurale come modello base. In questo tutorial, il modello base viene creato con l'API funzionale tf.keras ; questa procedura è compatibile anche con i modelli creati dalle API sequenziali e di sottoclasse tf.keras . Per ulteriori informazioni sui modelli Keras in TensorFlow, vedere questa documentazione .
  2. Eseguire il wrapping del modello di base con la classe wrapper AdversarialRegularization , fornita dal framework NSL, per creare una nuova istanza tf.keras.Model . Questo nuovo modello includerà la perdita del contraddittorio come termine di regolarizzazione nel suo obiettivo formativo.
  3. Converti esempi nei dati di addestramento in dizionari di funzionalità.
  4. Addestrare e valutare il nuovo modello.

Riepilogo per principianti

C'è una spiegazione video corrispondente sull'apprendimento contraddittorio per la classificazione delle immagini, parte della serie Youtube di TensorFlow Neural Structured Learning. Di seguito, abbiamo riassunto i concetti chiave spiegati in questo video, ampliando la spiegazione fornita nella sezione Panoramica sopra.

Il framework NSL ottimizza congiuntamente sia le caratteristiche dell'immagine che i segnali strutturati per aiutare le reti neurali ad apprendere meglio. Tuttavia, cosa succede se non è disponibile una struttura esplicita per addestrare la rete neurale? Questo tutorial spiega un approccio che prevede la creazione di adiacenti contraddittori (modificati dal campione originale) per costruire dinamicamente una struttura.

In primo luogo, i vicini contraddittori sono definiti come versioni modificate dell'immagine campione applicata con piccole perturbazioni che inducono in errore una rete neurale nell'emettere classificazioni imprecise. Queste perturbazioni attentamente progettate sono in genere basate sulla direzione del gradiente inverso e hanno lo scopo di confondere la rete neurale durante l'allenamento. Gli esseri umani potrebbero non essere in grado di distinguere tra un'immagine di esempio e il suo vicino contraddittorio generato. Tuttavia, per la rete neurale, le perturbazioni applicate sono efficaci nel portare a una conclusione imprecisa.

I vicini contraddittori generati vengono quindi collegati al campione, costruendo quindi dinamicamente una struttura bordo per bordo. Usando questa connessione, le reti neurali imparano a mantenere le somiglianze tra il campione e i vicini avversari evitando la confusione derivante da classificazioni errate, migliorando così la qualità e l'accuratezza della rete neurale complessiva.

Il segmento di codice riportato di seguito è una spiegazione di alto livello dei passaggi coinvolti mentre il resto di questo tutorial approfondisce ulteriormente la tecnica.

  1. Leggere e preparare i dati. Carica il set di dati MNIST e normalizza i valori delle caratteristiche per rimanere nell'intervallo [0,1]
import neural_structured_learning as nsl

(x_train, y_train), (x_train, y_train) = tf.keras.datasets.mnist.load_data()
, x_test = x_train / 255.0, x_test / 255.0
  1. Costruisci la rete neurale. Per questo esempio viene utilizzato un modello base di Keras sequenziale.
model = tf.keras.Sequential(...)
  1. Configura il modello contraddittorio. Compresi gli iperparametri: moltiplicatore applicato alla regolarizzazione contraddittoria, valori diversi scelti empiricamente per passo passo/velocità di apprendimento. Richiama la regolarizzazione contraddittoria con una classe wrapper attorno alla rete neurale costruita.
adv_config = nsl.configs.make_adv_reg_config(multiplier=0.2, adv_step_size=0.05)
= nsl.keras.AdversarialRegularization(model, adv_config)
  1. Concludi con il flusso di lavoro standard di Keras: compila, adatta, valuta.
adv_model.compile(optimizer='adam', loss='sparse_categorizal_crossentropy', metrics=['accuracy'])
.fit({'feature': x_train, 'label': y_train}, epochs=5)
.evaluate({'feature': x_test, 'label': y_test})

Quello che vedi qui è l'apprendimento contraddittorio abilitato in 2 passaggi e 3 semplici righe di codice. Questa è la semplicità del framework di apprendimento strutturato neurale. Nelle sezioni seguenti, espandiamo questa procedura.


Installa il pacchetto di apprendimento strutturato neurale.

pip install --quiet neural-structured-learning

Importa librerie. Abbreviamo neural_structured_learning in nsl .

import matplotlib.pyplot as plt
import neural_structured_learning as nsl
import numpy as np
import tensorflow as tf
import tensorflow_datasets as tfds


Raccogliamo e spieghiamo gli iperparametri (in un oggetto HParams ) per l'addestramento e la valutazione del modello.

Input Output:

  • input_shape : la forma del tensore di input. Ogni immagine è di 28 x 28 pixel con 1 canale.
  • num_classes : Ci sono un totale di 10 classi, corrispondenti a 10 cifre [0-9].

Architettura del modello:

  • conv_filters : un elenco di numeri, ciascuno dei quali specifica il numero di filtri in un livello convoluzionale.
  • kernel_size : la dimensione della finestra di convoluzione 2D, condivisa da tutti i livelli convoluzionali.
  • pool_size : fattori per ridimensionare l'immagine in ogni livello di pooling massimo.
  • num_fc_units : il numero di unità (cioè la larghezza) di ogni livello completamente connesso.

Formazione e valutazione:

  • batch_size : dimensione del batch utilizzata per la formazione e la valutazione.
  • epochs : il numero di epoche di addestramento.

Apprendimento contraddittorio:

  • adv_multiplier : Il peso della perdita del contraddittorio nell'obiettivo dell'allenamento, relativo alla perdita etichettata.
  • adv_step_size : L'entità della perturbazione contraddittoria.
  • adv_grad_norm : La norma per misurare l'entità della perturbazione contraddittoria.
class HParams(object):
def __init__(self):
self.input_shape = [28, 28, 1]
self.num_classes = 10
self.conv_filters = [32, 64, 64]
self.kernel_size = (3, 3)
self.pool_size = (2, 2)
self.num_fc_units = [64]
self.batch_size = 32
self.epochs = 5
self.adv_multiplier = 0.2
self.adv_step_size = 0.2
self.adv_grad_norm = 'infinity'

= HParams()

set di dati MNIST

Il set di dati MNIST contiene immagini in scala di grigi di cifre scritte a mano (da '0' a '9'). Ogni immagine mostra una cifra a bassa risoluzione (28 x 28 pixel). Il compito è classificare le immagini in 10 categorie, una per cifra.

Qui carichiamo il set di dati MNIST da TensorFlow Datasets . Gestisce il download dei dati e la costruzione di un . Il set di dati caricato ha due sottoinsiemi:

  • train con 60.000 esempi e
  • test con 10.000 esempi.

Gli esempi in entrambi i sottoinsiemi sono memorizzati nei dizionari delle funzioni con le due chiavi seguenti:

  • image : Matrice di valori di pixel, da 0 a 255.
  • label : Etichetta Groundtruth, da 0 a 9.
datasets = tfds.load('mnist')

= datasets['train']
= datasets['test']

= 'image'
= 'label'
Per rendere il modello numericamente stabile, normalizziamo i valori dei pixel su [0, 1] mappando il set di dati sulla funzione di normalize . Dopo aver mescolato il set di addestramento e il batch, convertiamo gli esempi in tuple di funzionalità (image, label) per il training del modello di base. Forniamo anche una funzione per convertire da tuple a dizionari per un uso successivo.

def normalize(features):
[IMAGE_INPUT_NAME] = tf.cast(
[IMAGE_INPUT_NAME], dtype=tf.float32) / 255.0
return features

def convert_to_tuples(features):
return features[IMAGE_INPUT_NAME], features[LABEL_INPUT_NAME]

def convert_to_dictionaries(image, label):
return {IMAGE_INPUT_NAME: image, LABEL_INPUT_NAME: label}


Modello base

Il nostro modello di base sarà una rete neurale composta da 3 strati convoluzionali seguiti da 2 strati completamente connessi (come definito in HPARAMS ). Qui lo definiamo usando l'API funzionale Keras. Sentiti libero di provare altre API o architetture di modelli (ad es. sottoclassi). Tieni presente che il framework NSL supporta tutti e tre i tipi di API Keras.

def build_base_model(hparams):
"""Builds a model according to the architecture defined in `hparams`."""
= tf.keras.Input(
=hparams.input_shape, dtype=tf.float32, name=IMAGE_INPUT_NAME)

= inputs
for i, num_filters in enumerate(hparams.conv_filters):
= tf.keras.layers.Conv2D(
, hparams.kernel_size, activation='relu')(
if i < len(hparams.conv_filters) - 1:
# max pooling between convolutional layers
= tf.keras.layers.MaxPooling2D(hparams.pool_size)(x)
= tf.keras.layers.Flatten()(x)
for num_units in hparams.num_fc_units:
= tf.keras.layers.Dense(num_units, activation='relu')(x)
= tf.keras.layers.Dense(hparams.num_classes)(x)
= tf.keras.Model(inputs=inputs, outputs=pred)
return model
base_model = build_base_model(HPARAMS)
Model: "model"
 Layer (type)                Output Shape              Param #   
 image (InputLayer)          [(None, 28, 28, 1)]       0         
 conv2d (Conv2D)             (None, 26, 26, 32)        320       
 max_pooling2d (MaxPooling2D  (None, 13, 13, 32)       0         
 conv2d_1 (Conv2D)           (None, 11, 11, 64)        18496     
 max_pooling2d_1 (MaxPooling  (None, 5, 5, 64)         0         
 conv2d_2 (Conv2D)           (None, 3, 3, 64)          36928     
 flatten (Flatten)           (None, 576)               0         
 dense (Dense)               (None, 64)                36928     
 dense_1 (Dense)             (None, 10)                650       
Total params: 93,322
Trainable params: 93,322
Non-trainable params: 0

Successivamente formiamo e valutiamo il modello base.

.fit(train_dataset, epochs=HPARAMS.epochs)
Epoch 1/5
1875/1875 [==============================] - 15s 7ms/step - loss: 0.1412 - acc: 0.9553
Epoch 2/5
1875/1875 [==============================] - 13s 7ms/step - loss: 0.0464 - acc: 0.9853
Epoch 3/5
1875/1875 [==============================] - 13s 7ms/step - loss: 0.0335 - acc: 0.9896
Epoch 4/5
1875/1875 [==============================] - 13s 7ms/step - loss: 0.0267 - acc: 0.9914
Epoch 5/5
1875/1875 [==============================] - 13s 7ms/step - loss: 0.0199 - acc: 0.9937
<keras.callbacks.History at 0x7f04504de3d0>
results = base_model.evaluate(test_dataset)
= dict(zip(base_model.metrics_names, results))
print('\naccuracy:', named_results['acc'])
313/313 [==============================] - 1s 3ms/step - loss: 0.0360 - acc: 0.9891

accuracy: 0.9890999794006348

Possiamo vedere che il modello base raggiunge una precisione del 99% sul set di test. Vedremo quanto è robusto in Robustezza sotto perturbazioni contraddittorie di seguito.

Modello regolato dal contraddittorio

Qui mostriamo come incorporare la formazione del contraddittorio in un modello Keras con poche righe di codice, usando il framework NSL. Il modello base viene avvolto per creare un nuovo tf.Keras.Model , il cui obiettivo formativo include la regolarizzazione contraddittoria.

Innanzitutto, creiamo un oggetto di configurazione con tutti gli iperparametri rilevanti utilizzando la funzione di supporto nsl.configs.make_adv_reg_config .

adv_config = nsl.configs.make_adv_reg_config(

Ora possiamo avvolgere un modello base con AdversarialRegularization . Qui creiamo un nuovo modello di base ( base_adv_model ), in modo che quello esistente ( base_model ) possa essere utilizzato in un confronto successivo.

L' adv_model restituito è un oggetto tf.keras.Model , il cui obiettivo di addestramento include un termine di regolarizzazione per la perdita del contraddittorio. Per calcolare tale perdita, il modello deve avere accesso alle informazioni sull'etichetta (feature label ), oltre al normale input (feature image ). Per questo motivo, convertiamo gli esempi nei set di dati dalle tuple ai dizionari. E diciamo al modello quale caratteristica contiene le informazioni sull'etichetta tramite il parametro label_keys .

base_adv_model = build_base_model(HPARAMS)
= nsl.keras.AdversarialRegularization(


Quindi compiliamo, formiamo e valutiamo il modello regolato dal contraddittorio. Potrebbero esserci avvisi come "Output mancante dal dizionario di perdita", il che va bene perché adv_model non si basa sull'implementazione di base per calcolare la perdita totale.

.fit(train_set_for_adv_model, epochs=HPARAMS.epochs)
Epoch 1/5
base model accuracy: 0.466300
adv-regularized model accuracy: 0.954600

Possiamo vedere che l'accuratezza del modello base diminuisce drasticamente (dal 99% a circa il 50%) quando l'input viene perturbato in modo contraddittorio. D'altra parte, l'accuratezza del modello regolato dal contraddittorio degrada solo leggermente (dal 99% al 95%). Ciò dimostra l'efficacia dell'apprendimento contraddittorio sul miglioramento della robustezza del modello.

Esempi di immagini conflittuali

Qui diamo un'occhiata alle immagini contraddittorie. Possiamo vedere che le immagini perturbate mostrano ancora cifre riconoscibili dall'uomo, ma possono ingannare con successo il modello base.

batch_index = 0

= perturbed_images[batch_index]
= labels[batch_index]
= predictions[batch_index]

= HPARAMS.batch_size
= 4
= (batch_size + n_col - 1) // n_col

print('accuracy in batch %d:' % batch_index)
for name, pred in batch_pred.items():
print('%s model: %d / %d' % (name, np.sum(batch_label == pred), batch_size))

.figure(figsize=(15, 15))
for i, (image, y) in enumerate(zip(batch_image, batch_label)):
= batch_pred['base'][i]
= batch_pred['adv-regularized'][i]
.subplot(n_row, n_col, i+1)
.title('true: %d, base: %d, adv: %d' % (y, y_base, y_adv))
.imshow(tf.keras.utils.array_to_img(image), cmap='gray')

accuracy in batch 0:
base model: 11 / 32
adv-regularized model: 31 / 32



Abbiamo dimostrato l'uso dell'apprendimento contraddittorio per la classificazione delle immagini utilizzando il framework Neural Structured Learning (NSL). Incoraggiamo gli utenti a sperimentare diverse impostazioni del contraddittorio (negli iperparametri) e a vedere come influiscono sulla robustezza del modello.