تسوية الخصومة لتصنيف الصور


في هذا البرنامج التعليمي ، سوف نستكشف استخدام التعلم العدائي ( Goodfellow et al. ، 2014 ) لتصنيف الصور باستخدام إطار عمل التعلم المهيكل العصبي (NSL).

الفكرة الأساسية للتعلم العدائي هي تدريب نموذج ببيانات مضطربة عن طريق الخصومة (تسمى أمثلة الخصومة) بالإضافة إلى بيانات التدريب العضوي. بالنسبة للعين البشرية ، تبدو هذه الأمثلة العدائية مماثلة للنموذج الأصلي ولكن الاضطراب سيؤدي إلى تشويش النموذج وتقديم تنبؤات أو تصنيفات غير صحيحة. تم تصميم الأمثلة العدائية لتضليل النموذج عن عمد لتقديم تنبؤات أو تصنيفات خاطئة. من خلال التدريب على مثل هذه الأمثلة ، يتعلم النموذج أن يكون قويًا ضد الاضطراب العدائي عند إجراء التنبؤات.

في هذا البرنامج التعليمي ، نوضح الإجراء التالي لتطبيق التعلم العدائي للحصول على نماذج قوية باستخدام إطار عمل التعلم المهيكل العصبي:

  1. إنشاء شبكة عصبية كنموذج أساسي. في هذا البرنامج التعليمي ، يتم إنشاء النموذج الأساسي باستخدام واجهة برمجة تطبيقات tf.keras الوظيفية ؛ هذا الإجراء متوافق مع النماذج التي تم إنشاؤها بواسطة واجهات برمجة التطبيقات المتسلسلة والفئة الفرعية من tf.keras أيضًا. لمزيد من المعلومات حول نماذج Keras في TensorFlow ، راجع هذه الوثائق .
  2. قم بلف النموذج الأساسي مع فئة المجمع AdversarialRegularization ، التي يتم توفيرها بواسطة إطار عمل NSL ، لإنشاء مثيل tf.keras.Model جديد. سيشمل هذا النموذج الجديد خسارة الخصومة كمصطلح تنظيم في هدف التدريب.
  3. تحويل الأمثلة في بيانات التدريب إلى قواميس مميزة.
  4. تدريب وتقييم النموذج الجديد.

خلاصة للمبتدئين

يوجد شرح بالفيديو مطابق للتعلم العدائي لجزء تصنيف الصور من سلسلة TensorFlow Neural Structured Learning Youtube. أدناه ، قمنا بتلخيص المفاهيم الأساسية الموضحة في هذا الفيديو ، مع التوسع في الشرح المقدم في قسم "نظرة عامة" أعلاه.

يعمل إطار عمل NSL بشكل مشترك على تحسين ميزات الصورة والإشارات المنظمة لمساعدة الشبكات العصبية على التعلم بشكل أفضل. ومع ذلك ، ماذا لو لم تكن هناك بنية واضحة متاحة لتدريب الشبكة العصبية؟ يشرح هذا البرنامج التعليمي نهجًا واحدًا يتضمن إنشاء جيران متخاصمين (تم تعديله من العينة الأصلية) لإنشاء بنية ديناميكية.

أولاً ، يتم تعريف الجيران العدائيين على أنهم نسخ معدلة من صورة العينة المطبقة مع اضطرابات صغيرة تضلل الشبكة العصبية لإخراج تصنيفات غير دقيقة. عادةً ما تستند هذه الاضطرابات المصممة بعناية إلى اتجاه التدرج العكسي وتهدف إلى إرباك الشبكة العصبية أثناء التدريب. قد لا يكون البشر قادرين على معرفة الفرق بين صورة العينة وتوليدها جارًا عدائيًا. ومع ذلك ، بالنسبة للشبكة العصبية ، فإن الاضطرابات المطبقة فعالة في الوصول إلى نتيجة غير دقيقة.

يتم بعد ذلك توصيل الجيران المتخاصمين المتولدين بالعينة ، وبالتالي يتم إنشاء هيكل حافة بحافة ديناميكيًا. باستخدام هذا الاتصال ، تتعلم الشبكات العصبية الحفاظ على أوجه التشابه بين العينة والجيران المتخاصمين مع تجنب الارتباك الناتج عن سوء التصنيف ، وبالتالي تحسين جودة الشبكة العصبية ودقتها بشكل عام.

مقطع الكود أدناه هو شرح عالي المستوى للخطوات المتضمنة بينما يتعمق باقي هذا البرنامج التعليمي في مزيد من العمق والتقنية.

  1. قراءة وإعداد البيانات. قم بتحميل مجموعة بيانات MNIST وقم بتسوية قيم الميزة للبقاء في النطاق [0،1]
import neural_structured_learning as nsl

(x_train, y_train), (x_train, y_train) = tf.keras.datasets.mnist.load_data()
, x_test = x_train / 255.0, x_test / 255.0
  1. بناء الشبكة العصبية. تم استخدام نموذج قاعدة Keras المتسلسل في هذا المثال.
model = tf.keras.Sequential(...)
  1. تكوين نموذج الخصومة. بما في ذلك المعلمات الفائقة: المضاعف المطبق على تسوية الخصومة ، تختلف القيم المختارة تجريبياً لحجم الخطوة / معدل التعلم. استدعي التنظيم العدائي مع فئة مُغلفة حول الشبكة العصبية المُنشأة.
adv_config = nsl.configs.make_adv_reg_config(multiplier=0.2, adv_step_size=0.05)
= nsl.keras.AdversarialRegularization(model, adv_config)
  1. اختتم بسير عمل Keras القياسي: التجميع والملاءمة والتقييم.
adv_model.compile(optimizer='adam', loss='sparse_categorizal_crossentropy', metrics=['accuracy'])
.fit({'feature': x_train, 'label': y_train}, epochs=5)
.evaluate({'feature': x_test, 'label': y_test})

ما تراه هنا هو التعلم العدائي ممكّنًا في خطوتين و 3 أسطر بسيطة من التعليمات البرمجية. هذه هي بساطة إطار التعلم المنظم العصبي. في الأقسام التالية ، نتوسع في هذا الإجراء.


قم بتثبيت حزمة التعلم المهيكل العصبي.

pip install --quiet neural-structured-learning

مكتبات الاستيراد. نقوم باختصار neural_structured_learning إلى nsl .

import matplotlib.pyplot as plt
import neural_structured_learning as nsl
import numpy as np
import tensorflow as tf
import tensorflow_datasets as tfds


نقوم بجمع وشرح المعلمات الفائقة (في كائن HParams ) لتدريب النموذج والتقييم.

الإدخال / الإخراج:

  • input_shape : شكل موتر الإدخال. كل صورة 28 × 28 بكسل بقناة واحدة.
  • num_classes : يوجد إجمالي 10 فئات ، تقابل 10 أرقام [0-9].

هندسة النموذج:

  • conv_filters : قائمة بالأرقام ، كل منها يحدد عدد المرشحات في طبقة تلافيفية.
  • kernel_size : حجم نافذة الالتفاف ثنائية الأبعاد ، مشتركة بين جميع الطبقات التلافيفية.
  • pool_size : عوامل تصغير الصورة في كل طبقة تجميع قصوى.
  • num_fc_units : عدد الوحدات (أي العرض) لكل طبقة متصلة بالكامل.

التدريب والتقييم:

  • batch_size : حجم الدفعة المستخدمة للتدريب والتقييم.
  • epochs : عدد فترات التدريب.

التعلم العدائي:

  • adv_multiplier : وزن خسارة الخصومة في هدف التدريب ، نسبة إلى الخسارة الموصوفة.
  • adv_step_size : حجم الاضطراب العدائي.
  • adv_grad_norm : المعيار لقياس حجم الاضطراب العدائي.
class HParams(object):
def __init__(self):
self.input_shape = [28, 28, 1]
self.num_classes = 10
self.conv_filters = [32, 64, 64]
self.kernel_size = (3, 3)
self.pool_size = (2, 2)
self.num_fc_units = [64]
self.batch_size = 32
self.epochs = 5
self.adv_multiplier = 0.2
self.adv_step_size = 0.2
self.adv_grad_norm = 'infinity'

= HParams()

مجموعة بيانات MNIST

تحتوي مجموعة بيانات MNIST على صور بتدرج الرمادي لأرقام مكتوبة بخط اليد (من "0" إلى "9"). تعرض كل صورة رقمًا واحدًا بدقة منخفضة (28 × 28 بكسل). المهمة المتضمنة هي تصنيف الصور إلى 10 فئات ، فئة واحدة لكل رقم.

نقوم هنا بتحميل مجموعة بيانات MNIST من مجموعات بيانات TensorFlow . يتعامل مع تنزيل البيانات وإنشاء tf.data.Dataset . تحتوي مجموعة البيانات المحملة على مجموعتين فرعيتين:

  • train مع 60،000 مثال ، و
  • test مع 10000 مثال.

يتم تخزين الأمثلة في كلتا المجموعتين الفرعيتين في قواميس الميزات بالمفتاحين التاليين:

  • image : صفيف من قيم البكسل ، تتراوح من 0 إلى 255.
  • label : تسمية Groundtruth ، تتراوح من 0 إلى 9.
datasets = tfds.load('mnist')

= datasets['train']
= datasets['test']

= 'image'
= 'label'
لجعل النموذج مستقرًا عدديًا ، نقوم بتطبيع قيم البكسل إلى [0 ، 1] عن طريق تعيين مجموعة البيانات على وظيفة normalize . بعد خلط مجموعة التدريب والتجميع ، نقوم بتحويل الأمثلة إلى مجموعات مميزة (image, label) لتدريب النموذج الأساسي. نوفر أيضًا وظيفة للتحويل من مجموعات إلى قواميس لاستخدامها لاحقًا.

def normalize(features):
[IMAGE_INPUT_NAME] = tf.cast(
[IMAGE_INPUT_NAME], dtype=tf.float32) / 255.0
return features

def convert_to_tuples(features):
return features[IMAGE_INPUT_NAME], features[LABEL_INPUT_NAME]

def convert_to_dictionaries(image, label):
return {IMAGE_INPUT_NAME: image, LABEL_INPUT_NAME: label}

= train_dataset.map(normalize).shuffle(10000).batch(HPARAMS.batch_size).map(convert_to_tuples)
= test_dataset.map(normalize).batch(HPARAMS.batch_size).map(convert_to_tuples)

نموذج القاعدة

سيكون نموذجنا الأساسي عبارة عن شبكة عصبية تتكون من 3 طبقات تلافيفية تتبعها طبقتان متصلتان بالكامل (على النحو المحدد في HPARAMS ). هنا نحدده باستخدام واجهة برمجة تطبيقات Keras الوظيفية. لا تتردد في تجربة واجهات برمجة التطبيقات أو نماذج معمارية أخرى (مثل التصنيف الفرعي). لاحظ أن إطار عمل NSL يدعم جميع الأنواع الثلاثة من واجهات برمجة تطبيقات Keras.

def build_base_model(hparams):
"""Builds a model according to the architecture defined in `hparams`."""
= tf.keras.Input(
=hparams.input_shape, dtype=tf.float32, name=IMAGE_INPUT_NAME)

= inputs
for i, num_filters in enumerate(hparams.conv_filters):
= tf.keras.layers.Conv2D(
, hparams.kernel_size, activation='relu')(
if i < len(hparams.conv_filters) - 1:
# max pooling between convolutional layers
= tf.keras.layers.MaxPooling2D(hparams.pool_size)(x)
= tf.keras.layers.Flatten()(x)
for num_units in hparams.num_fc_units:
= tf.keras.layers.Dense(num_units, activation='relu')(x)
= tf.keras.layers.Dense(hparams.num_classes)(x)
= tf.keras.Model(inputs=inputs, outputs=pred)
return model
base_model = build_base_model(HPARAMS)
Model: "model"
 Layer (type)                Output Shape              Param #   
 image (InputLayer)          [(None, 28, 28, 1)]       0         
 conv2d (Conv2D)             (None, 26, 26, 32)        320       
 max_pooling2d (MaxPooling2D  (None, 13, 13, 32)       0         
 conv2d_1 (Conv2D)           (None, 11, 11, 64)        18496     
 max_pooling2d_1 (MaxPooling  (None, 5, 5, 64)         0         
 conv2d_2 (Conv2D)           (None, 3, 3, 64)          36928     
 flatten (Flatten)           (None, 576)               0         
 dense (Dense)               (None, 64)                36928     
 dense_1 (Dense)             (None, 10)                650       
Total params: 93,322
Trainable params: 93,322
Non-trainable params: 0

بعد ذلك نقوم بتدريب وتقييم النموذج الأساسي.

.fit(train_dataset, epochs=HPARAMS.epochs)
Epoch 1/5
1875/1875 [==============================] - 15s 7ms/step - loss: 0.1412 - acc: 0.9553
Epoch 2/5
1875/1875 [==============================] - 13s 7ms/step - loss: 0.0464 - acc: 0.9853
Epoch 3/5
1875/1875 [==============================] - 13s 7ms/step - loss: 0.0335 - acc: 0.9896
Epoch 4/5
1875/1875 [==============================] - 13s 7ms/step - loss: 0.0267 - acc: 0.9914
Epoch 5/5
1875/1875 [==============================] - 13s 7ms/step - loss: 0.0199 - acc: 0.9937
<keras.callbacks.History at 0x7f04504de3d0>
results = base_model.evaluate(test_dataset)
= dict(zip(base_model.metrics_names, results))
print('\naccuracy:', named_results['acc'])
313/313 [==============================] - 1s 3ms/step - loss: 0.0360 - acc: 0.9891

accuracy: 0.9890999794006348

يمكننا أن نرى أن النموذج الأساسي يحقق دقة 99٪ في مجموعة الاختبار. سنرى مدى قوتها في المتانة تحت الاضطرابات العدائية أدناه.

نموذج الخصومة المنتظم

نوضح هنا كيفية دمج تدريب الخصومة في نموذج Keras ببضعة أسطر من التعليمات البرمجية ، باستخدام إطار عمل NSL. يتم تغليف النموذج الأساسي لإنشاء نموذج جديد tf.Keras.Model . ، والذي يتضمن هدفه التدريبي تنظيم الخصومة.

أولاً ، نقوم بإنشاء كائن تكوين مع جميع المعلمات التشعبية ذات الصلة باستخدام الوظيفة المساعدة nsl.configs.make_adv_reg_config .

adv_config = nsl.configs.make_adv_reg_config(

الآن يمكننا التفاف النموذج الأساسي مع AdversarialRegularization . نقوم هنا بإنشاء نموذج أساسي جديد ( base_adv_model ) ، بحيث يمكن استخدام النموذج الحالي ( base_model ) في المقارنة اللاحقة.

adv_model هو كائن tf.keras.Model ، والذي يتضمن هدف التدريب الخاص به مصطلح تنظيم للخسارة العدائية. لحساب هذه الخسارة ، يجب أن يكون لدى النموذج حق الوصول إلى معلومات الملصق ( label الميزة) ، بالإضافة إلى الإدخال المنتظم ( image الميزة). لهذا السبب ، نقوم بتحويل الأمثلة في مجموعات البيانات من المجموعات إلى القواميس. ونخبر النموذج بالميزة التي تحتوي على معلومات التسمية عبر معلمة label_keys .

base_adv_model = build_base_model(HPARAMS)
= nsl.keras.AdversarialRegularization(

= train_dataset.map(convert_to_dictionaries)
= test_dataset.map(convert_to_dictionaries)

بعد ذلك نقوم بتجميع وتدريب وتقييم النموذج العدائي المنظم. قد تكون هناك تحذيرات مثل "إخراج مفقود من قاموس الخسارة" ، وهو أمر جيد لأن نموذج adv_model لا يعتمد على التنفيذ الأساسي لحساب الخسارة الإجمالية.

.fit(train_set_for_adv_model, epochs=HPARAMS.epochs)
Epoch 1/5
base model accuracy: 0.466300
adv-regularized model accuracy: 0.954600

يمكننا أن نرى أن دقة النموذج الأساسي تنخفض بشكل كبير (من 99٪ إلى حوالي 50٪) عندما يكون الإدخال مضطربًا بشكل عكسي. من ناحية أخرى ، فإن دقة النموذج المنظم للخصومة تتدهور قليلاً فقط (من 99٪ إلى 95٪). يوضح هذا فعالية التعلم العدائي في تحسين متانة النموذج.

أمثلة على الصور المضطربة الخصومة

هنا نلقي نظرة على الصور المضطربة الخصومة. يمكننا أن نرى أن الصور المضطربة لا تزال تعرض أرقامًا يمكن للإنسان التعرف عليها ، ولكن يمكنها خداع النموذج الأساسي بنجاح.

batch_index = 0

= perturbed_images[batch_index]
= labels[batch_index]
= predictions[batch_index]

= HPARAMS.batch_size
= 4
= (batch_size + n_col - 1) // n_col

print('accuracy in batch %d:' % batch_index)
for name, pred in batch_pred.items():
print('%s model: %d / %d' % (name, np.sum(batch_label == pred), batch_size))

.figure(figsize=(15, 15))
for i, (image, y) in enumerate(zip(batch_image, batch_label)):
= batch_pred['base'][i]
= batch_pred['adv-regularized'][i]
.subplot(n_row, n_col, i+1)
.title('true: %d, base: %d, adv: %d' % (y, y_base, y_adv))
.imshow(tf.keras.utils.array_to_img(image), cmap='gray')

accuracy in batch 0:
base model: 11 / 32
adv-regularized model: 31 / 32

بي إن جي


لقد أظهرنا استخدام التعلم العدائي لتصنيف الصور باستخدام إطار التعلم الهيكلية العصبية (NSL). نحن نشجع المستخدمين على تجربة إعدادات خصومة مختلفة (في المعلمات المفرطة) ومعرفة كيفية تأثيرها على متانة النموذج.