이 튜토리얼에서는 Neural Structured Learning(NSL) 프레임워크를 사용하여 이미지 분류에 적대적 학습(Goodfellow et al., 2014)을 사용하는 방법을 살펴봅니다.
적대적 학습의 핵심 아이디어는 유기적 훈련 데이터와 함께 적대적으로 교란된 데이터(적대적 예라고 함)로 모델을 훈련하는 것입니다. 적대적인 예는 의도적으로 모델을 잘못된 예측 또는 분류로 오도하기 위해 구성됩니다. 이러한 예를 사용한 훈련을 통해 모델은 예측할 때 적대적 교란에 대해 견고함을 유지하도록 학습합니다.
이 튜토리얼에서는 Neural Structured Learning 프레임워크를 사용하여 견고한 모델을 얻기 위해 적대적 학습을 적용하는 다음 절차를 설명합니다.
- 신경망을 기본 모델로 생성합니다. 이 튜토리얼에서 기본 모델은
함수형 API로 생성됩니다. 이 절차는tf.keras
순차 및 하위 클래스화 API로 생성된 모델과도 호환됩니다. - NSL 프레임워크에서 제공하는
래퍼 클래스로 기본 모델을 래핑하여 새tf.keras.Model
인스턴스를 만듭니다. 이 새로운 모델은 훈련 목표에서 정규화 항으로 적대적 손실을 포함합니다. - 훈련 데이터의 예를 특성 사전으로 변환합니다.
- 새 모델을 훈련하고 평가합니다.
Neural Structured Learning 패키지를 설치합니다.
pip install --quiet neural-structured-learning
라이브러리를 가져옵니다. neural_structured_learning
을 nsl
로 축약합니다.
import matplotlib.pyplot as plt
import neural_structured_learning as nsl
import numpy as np
import tensorflow as tf
import tensorflow_datasets as tfds
하이퍼 매개변수
모델 훈련 및 평가를 위해 하이퍼 매개변수(HParams
객체에서)를 수집하고 설명합니다.
: 입력 텐서의 형상, 각 이미지는 1채널의 28x28 픽셀입니다.num_classes
: 총 10개의 클래스가 있으며 10자리 [0-9]에 해당합니다.
모델 아키텍처:
: 각각 컨볼루셔널 레이어에서 필터의 수를 지정하는 숫자의 목록입니다.kernel_size
: 모든 컨볼루셔널 레이어가 공유하는 2D 컨볼루션 창의 크기입니다.pool_size
: 각 최대 풀링 레이어에서 이미지를 축소하는 요소입니다.num_fc_units
: 완전히 연결된 각 레이어의 단위(예: 너비) 수입니다.
훈련 및 평가:
: 훈련 및 평가에 사용되는 배치 크기입니다.epochs
: 훈련 epoch의 수입니다.
적대적 학습:
: 훈련 목표에서 레이블이 지정된 손실에 대한 적대적 손실의 가중치입니다.adv_step_size
: 적대적 교란의 크기입니다.adv_grad_norm
: 적대적 교란의 크기를 측정하기 위한 표준입니다.
class HParams(object):
def __init__(self):
self.input_shape = [28, 28, 1]
self.num_classes = 10
self.conv_filters = [32, 64, 64]
self.kernel_size = (3, 3)
self.pool_size = (2, 2)
self.num_fc_units = [64]
self.batch_size = 32
self.epochs = 5
self.adv_multiplier = 0.2
self.adv_step_size = 0.2
self.adv_grad_norm = 'infinity'
HPARAMS = HParams()
MNIST 데이터세트
MNIST 데이터세트에는 손으로 쓴 숫자('0'에서 '9'까지)의 회색조 이미지가 포함됩니다. 각 이미지는 저해상도(28x28 픽셀)에서 한 자리를 표시합니다. 관련된 작업은 이미지를 숫자당 하나씩 10개의 범주로 분류하는 것입니다.
여기서는 TensorFlow Datasets에서 MNIST 데이터세트를 로드합니다. 데이터 다운로드 및 tf.data.Dataset
생성을 처리합니다. 로드된 데이터세트에는 두 개의 하위 집합이 있습니다.
- 60,000개의 예제로
하고 - 10,000개의 예제로
두 하위 집합의 예는 다음 두 키를 사용하여 특성 사전에 저장됩니다.
: 0에서 255 사이의 픽셀 값 배열입니다.label
: Groundtruth 레이블, 범위는 0~9입니다.
datasets = tfds.load('mnist')
train_dataset = datasets['train']
test_dataset = datasets['test']
모델을 수치적으로 안정적으로 만들기 위해 normalize
함수에 데이터세트를 매핑하여 픽셀 값을 [0, 1]로 정규화합니다. 훈련 세트를 셔플하고 일괄 처리한 후 기본 모델의 훈련을 위해 예를 특성 튜플 (image, label)
로 변환합니다. 또한, 나중에 사용할 수 있도록 튜플에서 사전으로 변환하는 함수를 제공합니다.
def normalize(features):
features[IMAGE_INPUT_NAME] = tf.cast(
features[IMAGE_INPUT_NAME], dtype=tf.float32) / 255.0
return features
def convert_to_tuples(features):
return features[IMAGE_INPUT_NAME], features[LABEL_INPUT_NAME]
def convert_to_dictionaries(image, label):
return {IMAGE_INPUT_NAME: image, LABEL_INPUT_NAME: label}
train_dataset = train_dataset.map(normalize).shuffle(10000).batch(HPARAMS.batch_size).map(convert_to_tuples)
test_dataset = test_dataset.map(normalize).batch(HPARAMS.batch_size).map(convert_to_tuples)
기본 모델
기본 모델은 3개의 컨볼루셔널 레이어와 2개의 완전 연결 레이어(HPARAMS
에 정의된 대로)로 구성된 신경망입니다. 여기에서는 Keras 함수형 API를 사용하여 정의합니다. 다른 API 또는 모델 아키텍처를 자유롭게 사용해 보세요.
def build_base_model(hparams):
"""Builds a model according to the architecture defined in `hparams`."""
inputs = tf.keras.Input(
shape=hparams.input_shape, dtype=tf.float32, name=IMAGE_INPUT_NAME)
x = inputs
for i, num_filters in enumerate(hparams.conv_filters):
x = tf.keras.layers.Conv2D(
num_filters, hparams.kernel_size, activation='relu')(
if i < len(hparams.conv_filters) - 1:
# max pooling between convolutional layers
x = tf.keras.layers.MaxPooling2D(hparams.pool_size)(x)
x = tf.keras.layers.Flatten()(x)
for num_units in hparams.num_fc_units:
x = tf.keras.layers.Dense(num_units, activation='relu')(x)
pred = tf.keras.layers.Dense(hparams.num_classes, activation='softmax')(x)
model = tf.keras.Model(inputs=inputs, outputs=pred)
return model
base_model = build_base_model(HPARAMS)
Model: "model" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= image (InputLayer) [(None, 28, 28, 1)] 0 _________________________________________________________________ conv2d (Conv2D) (None, 26, 26, 32) 320 _________________________________________________________________ max_pooling2d (MaxPooling2D) (None, 13, 13, 32) 0 _________________________________________________________________ conv2d_1 (Conv2D) (None, 11, 11, 64) 18496 _________________________________________________________________ max_pooling2d_1 (MaxPooling2 (None, 5, 5, 64) 0 _________________________________________________________________ conv2d_2 (Conv2D) (None, 3, 3, 64) 36928 _________________________________________________________________ flatten (Flatten) (None, 576) 0 _________________________________________________________________ dense (Dense) (None, 64) 36928 _________________________________________________________________ dense_1 (Dense) (None, 10) 650 ================================================================= Total params: 93,322 Trainable params: 93,322 Non-trainable params: 0 _________________________________________________________________
다음으로 기본 모델을 훈련하고 평가합니다.
base_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy',
base_model.fit(train_dataset, epochs=HPARAMS.epochs)
Epoch 1/5 1875/1875 [==============================] - 13s 5ms/step - loss: 0.3351 - acc: 0.8945 Epoch 2/5 1875/1875 [==============================] - 10s 5ms/step - loss: 0.0500 - acc: 0.9850 Epoch 3/5 1875/1875 [==============================] - 9s 5ms/step - loss: 0.0353 - acc: 0.9886 Epoch 4/5 1875/1875 [==============================] - 10s 5ms/step - loss: 0.0270 - acc: 0.9916 Epoch 5/5 1875/1875 [==============================] - 9s 5ms/step - loss: 0.0219 - acc: 0.9925
results = base_model.evaluate(test_dataset)
named_results = dict(zip(base_model.metrics_names, results))
print('\naccuracy:', named_results['acc'])
313/313 [==============================] - 1s 3ms/step - loss: 0.0333 - acc: 0.9905 accuracy: 0.9904999732971191
기본 모델이 테스트세트에서 99% 정확성을 달성하는 것을 볼 수 있습니다. 아래의 적대적 교란에서의 견고성에서 얼마나 견고한지 확인할 수 있습니다.
적대적 정규화 모델
여기에서는 NSL 프레임워크를 사용하여 몇 줄의 코드로 적대적 훈련을 Keras 모델에 통합하는 방법을 보여줍니다. 기본 모델은 훈련 목표에 적대적 정규화를 포함하는 새로운 tf.Keras.Model
을 만들기 위해 래핑됩니다.
먼저, 도우미 함수 nsl.configs.make_adv_reg_config
를 사용하여 모든 관련 하이퍼 매개변수가 포함된 config 객체를 만듭니다.
adv_config = nsl.configs.make_adv_reg_config(
이제 AdversarialRegularization
으로 기본 모델을 래핑할 수 있습니다. 여기에서 새로운 기본 모델 (base_adv_model
)을 생성하여 기존 모델(base_model
)을 나중에 비교하는 데 사용할 수 있습니다.
반환된 adv_model
은 tf.keras.Model
객체이며, 훈련 목표에는 적대적 손실에 대한 정규화 항이 포함됩니다. 손실을 계산하려면 모델이 일반 입력(특성 image
) 외에도 레이블 정보(특성 label
)에 액세스할 수 있어야 합니다. 이러한 이유로 데이터세트의 예를 튜플에서 다시 사전으로 변환합니다. 그리고 label_keys
매개변수를 통해 레이블 정보가 포함된 특성을 모델에 알립니다.
base_adv_model = build_base_model(HPARAMS)
adv_model = nsl.keras.AdversarialRegularization(
train_set_for_adv_model = train_dataset.map(convert_to_dictionaries)
test_set_for_adv_model = test_dataset.map(convert_to_dictionaries)
다음으로 적대적 정규화 모델을 컴파일, 훈련 및 평가합니다. "손실 사전에서 누락된 출력"과 같은 경고가 있을 수 있으며, adv_model
이 총 손실을 계산하기 위해 기본 구현에 의존하지 않기 때문에 괜찮습니다.
adv_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy',
adv_model.fit(train_set_for_adv_model, epochs=HPARAMS.epochs)
Epoch 1/5 1875/1875 [==============================] - 20s 7ms/step - loss: 0.5588 - sparse_categorical_crossentropy: 0.3307 - sparse_categorical_accuracy: 0.9023 - scaled_adversarial_loss: 0.2281 Epoch 2/5 1875/1875 [==============================] - 14s 7ms/step - loss: 0.1330 - sparse_categorical_crossentropy: 0.0440 - sparse_categorical_accuracy: 0.9864 - scaled_adversarial_loss: 0.0890 Epoch 3/5 1875/1875 [==============================] - 14s 7ms/step - loss: 0.0950 - sparse_categorical_crossentropy: 0.0300 - sparse_categorical_accuracy: 0.9898 - scaled_adversarial_loss: 0.0650 Epoch 4/5 1875/1875 [==============================] - 13s 7ms/step - loss: 0.0758 - sparse_categorical_crossentropy: 0.0234 - sparse_categorical_accuracy: 0.9926 - scaled_adversarial_loss: 0.0524 Epoch 5/5 1875/1875 [==============================] - 14s 7ms/step - loss: 0.0599 - sparse_categorical_crossentropy: 0.0183 - sparse_categorical_accuracy: 0.9938 - scaled_adversarial_loss: 0.0416
results = adv_model.evaluate(test_set_for_adv_model)
named_results = dict(zip(adv_model.metrics_names, results))
print('\naccuracy:', named_results['sparse_categorical_accuracy'])
313/313 [==============================] - 2s 4ms/step - loss: 0.0810 - sparse_categorical_crossentropy: 0.0345 - sparse_categorical_accuracy: 0.9895 - scaled_adversarial_loss: 0.0465 accuracy: 0.9894999861717224
적대적 정규화 모델도 테스트세트에서 매우 우수한 것을 볼 수 있습니다(99% 정확성).
적대적 교란에서의 견고성
이제 적대적 교란에서의 견고성을 위해 기본 모델과 적대적 정규화 모델을 비교합니다.
함수를 사용하여 적대적으로 교란된 예를 생성합니다. 그리고 기본 모델을 기반으로 한 세대를 사용합니다. 이를 위해 기본 모델을 AdversarialRegularization
으로 래핑합니다. 훈련(Model.fit
)을 호출하지 않는 한, 모델에서 학습된 변수는 변경되지 않으며, 모델은 여전히 기본 모델 섹션에서와 같습니다.
reference_model = nsl.keras.AdversarialRegularization(
평가할 모델을 사전에 수집하고 각 모델에 대한 메트릭 객체를 만듭니다.
기본 모델과 같은 입력 형식(레이블 정보 필요 없음)을 갖기 위해 adv_model.base_model
을 사용합니다. adv_model.base_model
에서 학습된 변수는 adv_model
에서의 변수와 같습니다.
models_to_eval = {
'base': base_model,
'adv-regularized': adv_model.base_model
metrics = {
name: tf.keras.metrics.SparseCategoricalAccuracy()
for name in models_to_eval.keys()
다음은 교란된 예를 생성하고 이를 사용하여 모델을 평가하는 루프입니다. 다음 섹션에서 시각화를 위해 교란된 이미지, 레이블 및 예측값을 저장합니다.
perturbed_images, labels, predictions = [], [], []
for batch in test_set_for_adv_model:
perturbed_batch = reference_model.perturb_on_batch(batch)
# Clipping makes perturbed examples have the same range as regular ones.
perturbed_batch[IMAGE_INPUT_NAME] = tf.clip_by_value(
perturbed_batch[IMAGE_INPUT_NAME], 0.0, 1.0)
y_true = perturbed_batch.pop(LABEL_INPUT_NAME)
for name, model in models_to_eval.items():
y_pred = model(perturbed_batch)
metrics[name](y_true, y_pred)
predictions[-1][name] = tf.argmax(y_pred, axis=-1).numpy()
for name, metric in metrics.items():
print('%s model accuracy: %f' % (name, metric.result().numpy()))
base model accuracy: 0.570600 adv-regularized model accuracy: 0.957200
입력이 적대적으로 교란될 때 기본 모델의 정확성이 급격히 떨어지는 것을 볼 수 있습니다(99%에서 약 50%로). 반면에 적대적 정규화 모델의 정확성은 약간만 저하됩니다(99%에서 95%로). 이는 모델의 견고성 향상에 대한 적대적 학습의 효과를 보여줍니다.
적대적으로 교란된 이미지의 예
다음에서 적대적으로 교란된 이미지를 살펴봅니다. 교란된 이미지는 여전히 사람이 인식할 수 있는 숫자를 보여주지만, 기본 모델을 속일 수 있음을 알 수 있습니다.
batch_index = 0
batch_image = perturbed_images[batch_index]
batch_label = labels[batch_index]
batch_pred = predictions[batch_index]
batch_size = HPARAMS.batch_size
n_col = 4
n_row = (batch_size + n_col - 1) / n_col
print('accuracy in batch %d:' % batch_index)
for name, pred in batch_pred.items():
print('%s model: %d / %d' % (name, np.sum(batch_label == pred), batch_size))
plt.figure(figsize=(15, 15))
for i, (image, y) in enumerate(zip(batch_image, batch_label)):
y_base = batch_pred['base'][i]
y_adv = batch_pred['adv-regularized'][i]
plt.subplot(n_row, n_col, i+1)
plt.title('true: %d, base: %d, adv: %d' % (y, y_base, y_adv))
plt.imshow(tf.keras.preprocessing.image.array_to_img(image), cmap='gray')
accuracy in batch 0: base model: 20 / 32 adv-regularized model: 31 / 32
Neural Structured Learning(NSL) 프레임워크를 사용하여 이미지 분류를 위한 적대적 학습을 사용하는 방법을 시연했습니다. 사용자가 다양한 적대적 설정(하이퍼 매개변수에서)을 실험하고 모델 견고성에 어떻게 영향을 미치는지 확인할 것을 권장합니다.