I progressi del modello possono essere salvati durante e dopo l'allenamento. Ciò significa che un modello può riprendere da dove era stato interrotto ed evitare lunghi tempi di allenamento. Salvare significa anche che puoi condividere il tuo modello e altri possono ricreare il tuo lavoro. Quando si pubblicano modelli e tecniche di ricerca, la maggior parte dei professionisti dell'apprendimento automatico condivide:
- codice per creare il modello e
- i pesi o parametri addestrati per il modello
La condivisione di questi dati aiuta gli altri a capire come funziona il modello e a provarlo da soli con nuovi dati.
Esistono diversi modi per salvare i modelli TensorFlow a seconda dell'API che stai utilizzando. Questa guida utilizza tf.keras , un'API di alto livello per creare e addestrare modelli in TensorFlow. Per altri approcci, vedere la guida al salvataggio e al ripristino di TensorFlow o il salvataggio in desideroso .
Installa e importa
Installa e importa TensorFlow e le dipendenze:
pip install pyyaml h5py # Required to save models in HDF5 format
import os
import tensorflow as tf
from tensorflow import keras
Ottieni un set di dati di esempio
Per dimostrare come salvare e caricare pesi, utilizzerai il set di dati MNIST . Per velocizzare queste corse, usa i primi 1000 esempi:
(train_images, train_labels), (test_images, test_labels) = tf.keras.datasets.mnist.load_data()
train_labels = train_labels[:1000]
test_labels = test_labels[:1000]
train_images = train_images[:1000].reshape(-1, 28 * 28) / 255.0
test_images = test_images[:1000].reshape(-1, 28 * 28) / 255.0
Definisci un modello
Inizia costruendo un semplice modello sequenziale:
# Define a simple sequential model
def create_model():
model = tf.keras.models.Sequential([
keras.layers.Dense(512, activation='relu', input_shape=(784,)),
return model
# Create a basic model instance
model = create_model()
# Display the model's architecture
Model: "sequential" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= dense (Dense) (None, 512) 401920 dropout (Dropout) (None, 512) 0 dense_1 (Dense) (None, 10) 5130 ================================================================= Total params: 407,050 Trainable params: 407,050 Non-trainable params: 0 _________________________________________________________________
Salva i checkpoint durante l'allenamento
È possibile utilizzare un modello addestrato senza doverlo riqualificare o riprendere l'addestramento da dove l'avevi interrotto nel caso in cui il processo di addestramento fosse interrotto. Il callback tf.keras.callbacks.ModelCheckpoint
consente di salvare continuamente il modello sia durante che alla fine dell'allenamento.
Utilizzo della richiamata del checkpoint
Crea un callback tf.keras.callbacks.ModelCheckpoint
che salva i pesi solo durante l'allenamento:
checkpoint_path = "training_1/cp.ckpt"
checkpoint_dir = os.path.dirname(checkpoint_path)
# Create a callback that saves the model's weights
cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_path,
# Train the model with the new callback
validation_data=(test_images, test_labels),
callbacks=[cp_callback]) # Pass callback to training
# This may generate warnings related to saving the state of the optimizer.
# These warnings (and similar warnings throughout this notebook)
# are in place to discourage outdated usage, and can be ignored.
Epoch 1/10 23/32 [====================>.........] - ETA: 0s - loss: 1.3666 - sparse_categorical_accuracy: 0.6060 Epoch 1: saving model to training_1/cp.ckpt 32/32 [==============================] - 1s 10ms/step - loss: 1.1735 - sparse_categorical_accuracy: 0.6690 - val_loss: 0.7180 - val_sparse_categorical_accuracy: 0.7750 Epoch 2/10 24/32 [=====================>........] - ETA: 0s - loss: 0.4238 - sparse_categorical_accuracy: 0.8789 Epoch 2: saving model to training_1/cp.ckpt 32/32 [==============================] - 0s 5ms/step - loss: 0.4201 - sparse_categorical_accuracy: 0.8810 - val_loss: 0.5621 - val_sparse_categorical_accuracy: 0.8150 Epoch 3/10 24/32 [=====================>........] - ETA: 0s - loss: 0.2795 - sparse_categorical_accuracy: 0.9336 Epoch 3: saving model to training_1/cp.ckpt 32/32 [==============================] - 0s 5ms/step - loss: 0.2815 - sparse_categorical_accuracy: 0.9310 - val_loss: 0.4790 - val_sparse_categorical_accuracy: 0.8430 Epoch 4/10 24/32 [=====================>........] - ETA: 0s - loss: 0.2027 - sparse_categorical_accuracy: 0.9427 Epoch 4: saving model to training_1/cp.ckpt 32/32 [==============================] - 0s 5ms/step - loss: 0.2016 - sparse_categorical_accuracy: 0.9440 - val_loss: 0.4361 - val_sparse_categorical_accuracy: 0.8610 Epoch 5/10 24/32 [=====================>........] - ETA: 0s - loss: 0.1739 - sparse_categorical_accuracy: 0.9583 Epoch 5: saving model to training_1/cp.ckpt 32/32 [==============================] - 0s 5ms/step - loss: 0.1683 - sparse_categorical_accuracy: 0.9610 - val_loss: 0.4640 - val_sparse_categorical_accuracy: 0.8580 Epoch 6/10 23/32 [====================>.........] - ETA: 0s - loss: 0.1116 - sparse_categorical_accuracy: 0.9796 Epoch 6: saving model to training_1/cp.ckpt 32/32 [==============================] - 0s 5ms/step - loss: 0.1125 - sparse_categorical_accuracy: 0.9780 - val_loss: 0.4420 - val_sparse_categorical_accuracy: 0.8580 Epoch 7/10 24/32 [=====================>........] - ETA: 0s - loss: 0.0978 - sparse_categorical_accuracy: 0.9831 Epoch 7: saving model to training_1/cp.ckpt 32/32 [==============================] - 0s 5ms/step - loss: 0.0989 - sparse_categorical_accuracy: 0.9820 - val_loss: 0.4163 - val_sparse_categorical_accuracy: 0.8590 Epoch 8/10 21/32 [==================>...........] - ETA: 0s - loss: 0.0669 - sparse_categorical_accuracy: 0.9911 Epoch 8: saving model to training_1/cp.ckpt 32/32 [==============================] - 0s 6ms/step - loss: 0.0690 - sparse_categorical_accuracy: 0.9910 - val_loss: 0.4411 - val_sparse_categorical_accuracy: 0.8600 Epoch 9/10 22/32 [===================>..........] - ETA: 0s - loss: 0.0495 - sparse_categorical_accuracy: 0.9972 Epoch 9: saving model to training_1/cp.ckpt 32/32 [==============================] - 0s 5ms/step - loss: 0.0516 - sparse_categorical_accuracy: 0.9950 - val_loss: 0.4064 - val_sparse_categorical_accuracy: 0.8650 Epoch 10/10 24/32 [=====================>........] - ETA: 0s - loss: 0.0436 - sparse_categorical_accuracy: 0.9948 Epoch 10: saving model to training_1/cp.ckpt 32/32 [==============================] - 0s 5ms/step - loss: 0.0437 - sparse_categorical_accuracy: 0.9960 - val_loss: 0.4061 - val_sparse_categorical_accuracy: 0.8770 <keras.callbacks.History at 0x7eff8d865390>
Questo crea una singola raccolta di file di checkpoint TensorFlow che vengono aggiornati alla fine di ogni epoca:
['checkpoint', 'cp.ckpt.index', 'cp.ckpt.data-00000-of-00001']
Finché due modelli condividono la stessa architettura, puoi condividere i pesi tra di loro. Pertanto, quando si ripristina un modello dai soli pesi, creare un modello con la stessa architettura del modello originale e quindi impostarne i pesi.
Ora ricostruisci un modello nuovo e non addestrato e valutalo sul set di test. Un modello non addestrato si esibirà a livelli casuali (precisione del 10% circa):
# Create a basic model instance
model = create_model()
# Evaluate the model
loss, acc = model.evaluate(test_images, test_labels, verbose=2)
print("Untrained model, accuracy: {:5.2f}%".format(100 * acc))
32/32 - 0s - loss: 2.4473 - sparse_categorical_accuracy: 0.0980 - 145ms/epoch - 5ms/step Untrained model, accuracy: 9.80%
Quindi caricare i pesi dal checkpoint e rivalutare:
# Loads the weights
# Re-evaluate the model
loss, acc = model.evaluate(test_images, test_labels, verbose=2)
print("Restored model, accuracy: {:5.2f}%".format(100 * acc))
32/32 - 0s - loss: 0.4061 - sparse_categorical_accuracy: 0.8770 - 65ms/epoch - 2ms/step Restored model, accuracy: 87.70%
Opzioni di richiamata del checkpoint
La richiamata offre diverse opzioni per fornire nomi univoci per i checkpoint e regolare la frequenza dei checkpoint.
Addestra un nuovo modello e salva checkpoint con nome univoco una volta ogni cinque epoche:
# Include the epoch in the file name (uses `str.format`)
checkpoint_path = "training_2/cp-{epoch:04d}.ckpt"
checkpoint_dir = os.path.dirname(checkpoint_path)
batch_size = 32
# Create a callback that saves the model's weights every 5 epochs
cp_callback = tf.keras.callbacks.ModelCheckpoint(
# Create a new model instance
model = create_model()
# Save the weights using the `checkpoint_path` format
# Train the model with the new callback
validation_data=(test_images, test_labels),
Epoch 5: saving model to training_2/cp-0005.ckpt Epoch 10: saving model to training_2/cp-0010.ckpt Epoch 15: saving model to training_2/cp-0015.ckpt Epoch 20: saving model to training_2/cp-0020.ckpt Epoch 25: saving model to training_2/cp-0025.ckpt Epoch 30: saving model to training_2/cp-0030.ckpt Epoch 35: saving model to training_2/cp-0035.ckpt Epoch 40: saving model to training_2/cp-0040.ckpt Epoch 45: saving model to training_2/cp-0045.ckpt Epoch 50: saving model to training_2/cp-0050.ckpt <keras.callbacks.History at 0x7eff807703d0>
Ora, guarda i checkpoint risultanti e scegli l'ultimo:
['cp-0005.ckpt.data-00000-of-00001', 'cp-0050.ckpt.index', 'checkpoint', 'cp-0010.ckpt.index', 'cp-0035.ckpt.data-00000-of-00001', 'cp-0000.ckpt.data-00000-of-00001', 'cp-0050.ckpt.data-00000-of-00001', 'cp-0010.ckpt.data-00000-of-00001', 'cp-0020.ckpt.data-00000-of-00001', 'cp-0035.ckpt.index', 'cp-0040.ckpt.index', 'cp-0025.ckpt.data-00000-of-00001', 'cp-0045.ckpt.index', 'cp-0020.ckpt.index', 'cp-0025.ckpt.index', 'cp-0030.ckpt.data-00000-of-00001', 'cp-0030.ckpt.index', 'cp-0000.ckpt.index', 'cp-0045.ckpt.data-00000-of-00001', 'cp-0015.ckpt.index', 'cp-0015.ckpt.data-00000-of-00001', 'cp-0005.ckpt.index', 'cp-0040.ckpt.data-00000-of-00001']
latest = tf.train.latest_checkpoint(checkpoint_dir)
Per testare, reimpostare il modello e caricare l'ultimo checkpoint:
# Create a new model instance
model = create_model()
# Load the previously saved weights
# Re-evaluate the model
loss, acc = model.evaluate(test_images, test_labels, verbose=2)
print("Restored model, accuracy: {:5.2f}%".format(100 * acc))
32/32 - 0s - loss: 0.4996 - sparse_categorical_accuracy: 0.8770 - 150ms/epoch - 5ms/step Restored model, accuracy: 87.70%
Cosa sono questi file?
Il codice precedente memorizza i pesi in una raccolta di file in formato checkpoint che contengono solo i pesi addestrati in un formato binario. I checkpoint contengono:
- Uno o più frammenti che contengono i pesi del tuo modello.
- Un file di indice che indica quali pesi sono archiviati in quale shard.
Se stai addestrando un modello su una singola macchina, avrai uno shard con il suffisso: .data-00000-of-00001
Salva manualmente i pesi
Salvataggio manuale dei pesi con il metodo Model.save_weights
. Per impostazione predefinita, tf.keras
, e in particolare save_weights
, utilizza il formato del checkpoint TensorFlow con estensione .ckpt
(il salvataggio in HDF5 con estensione .h5
è trattato nella guida al salvataggio e alla serializzazione dei modelli ):
# Save the weights
# Create a new model instance
model = create_model()
# Restore the weights
# Evaluate the model
loss, acc = model.evaluate(test_images, test_labels, verbose=2)
print("Restored model, accuracy: {:5.2f}%".format(100 * acc))
32/32 - 0s - loss: 0.4996 - sparse_categorical_accuracy: 0.8770 - 143ms/epoch - 4ms/step Restored model, accuracy: 87.70%
Salva l'intero modello
Chiama model.save
per salvare l'architettura, i pesi e la configurazione di addestramento di un modello in un unico file/cartella. Ciò consente di esportare un modello in modo che possa essere utilizzato senza accedere al codice Python originale*. Poiché lo stato dell'ottimizzatore viene ripristinato, puoi riprendere l'allenamento esattamente da dove eri rimasto.
Un intero modello può essere salvato in due diversi formati di file ( SavedModel
e HDF5
). Il formato TensorFlow SavedModel
è il formato file predefinito in TF2.x. Tuttavia, i modelli possono essere salvati in formato HDF5
. Maggiori dettagli sul salvataggio di interi modelli nei due formati di file sono descritti di seguito.
Il salvataggio di un modello completamente funzionale è molto utile: puoi caricarlo in TensorFlow.js ( modello salvato , HDF5 ) e quindi addestrarlo ed eseguirlo nei browser Web, oppure convertirlo per l'esecuzione su dispositivi mobili utilizzando TensorFlow Lite ( modello salvato , HDF5 )
*Gli oggetti personalizzati (ad es. modelli o livelli di sottoclassi) richiedono un'attenzione particolare durante il salvataggio e il caricamento. Vedere la sezione Salvataggio di oggetti personalizzati di seguito
Formato modello salvato
Il formato SavedModel è un altro modo per serializzare i modelli. I modelli salvati in questo formato possono essere ripristinati utilizzando tf.keras.models.load_model
e sono compatibili con TensorFlow Serving. La guida SavedModel spiega in dettaglio come servire/ispezionare il SavedModel. La sezione seguente illustra i passaggi per salvare e ripristinare il modello.
# Create and train a new model instance.
model = create_model()
model.fit(train_images, train_labels, epochs=5)
# Save the entire model as a SavedModel.
!mkdir -p saved_model
Epoch 1/5 32/32 [==============================] - 0s 2ms/step - loss: 1.1988 - sparse_categorical_accuracy: 0.6550 Epoch 2/5 32/32 [==============================] - 0s 2ms/step - loss: 0.4180 - sparse_categorical_accuracy: 0.8930 Epoch 3/5 32/32 [==============================] - 0s 2ms/step - loss: 0.2900 - sparse_categorical_accuracy: 0.9220 Epoch 4/5 32/32 [==============================] - 0s 2ms/step - loss: 0.2070 - sparse_categorical_accuracy: 0.9540 Epoch 5/5 32/32 [==============================] - 0s 2ms/step - loss: 0.1593 - sparse_categorical_accuracy: 0.9630 2022-01-26 07:30:22.888387: W tensorflow/python/util/util.cc:368] Sets are not currently considered sequences, but this may change in the future, so consider avoiding using them. WARNING:tensorflow:Detecting that an object or model or tf.train.Checkpoint is being deleted with unrestored values. See the following logs for the specific values in question. To silence these warnings, use `status.expect_partial()`. See https://www.tensorflow.org/api_docs/python/tf/train/Checkpoint#restorefor details about the status object returned by the restore function. WARNING:tensorflow:Value in checkpoint could not be found in the restored object: (root).optimizer.iter WARNING:tensorflow:Value in checkpoint could not be found in the restored object: (root).optimizer.beta_1 WARNING:tensorflow:Value in checkpoint could not be found in the restored object: (root).optimizer.beta_2 WARNING:tensorflow:Value in checkpoint could not be found in the restored object: (root).optimizer.decay WARNING:tensorflow:Value in checkpoint could not be found in the restored object: (root).optimizer.learning_rate WARNING:tensorflow:Detecting that an object or model or tf.train.Checkpoint is being deleted with unrestored values. See the following logs for the specific values in question. To silence these warnings, use `status.expect_partial()`. See https://www.tensorflow.org/api_docs/python/tf/train/Checkpoint#restorefor details about the status object returned by the restore function. WARNING:tensorflow:Value in checkpoint could not be found in the restored object: (root).optimizer.iter WARNING:tensorflow:Value in checkpoint could not be found in the restored object: (root).optimizer.beta_1 WARNING:tensorflow:Value in checkpoint could not be found in the restored object: (root).optimizer.beta_2 WARNING:tensorflow:Value in checkpoint could not be found in the restored object: (root).optimizer.decay WARNING:tensorflow:Value in checkpoint could not be found in the restored object: (root).optimizer.learning_rate INFO:tensorflow:Assets written to: saved_model/my_model/assets
Il formato SavedModel è una directory contenente un binario protobuf e un checkpoint TensorFlow. Ispeziona la directory del modello salvato:
# my_model directory
ls saved_model
# Contains an assets folder, saved_model.pb, and variables folder.
ls saved_model/my_model
my_model assets keras_metadata.pb saved_model.pb variables
Ricarica un nuovo modello Keras dal modello salvato:
new_model = tf.keras.models.load_model('saved_model/my_model')
# Check its architecture
Model: "sequential_5" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= dense_10 (Dense) (None, 512) 401920 dropout_5 (Dropout) (None, 512) 0 dense_11 (Dense) (None, 10) 5130 ================================================================= Total params: 407,050 Trainable params: 407,050 Non-trainable params: 0 _________________________________________________________________
Il modello ripristinato viene compilato con gli stessi argomenti del modello originale. Prova a eseguire la valutazione e la previsione con il modello caricato:
# Evaluate the restored model
loss, acc = new_model.evaluate(test_images, test_labels, verbose=2)
print('Restored model, accuracy: {:5.2f}%'.format(100 * acc))
32/32 - 0s - loss: 0.4577 - sparse_categorical_accuracy: 0.8430 - 156ms/epoch - 5ms/step Restored model, accuracy: 84.30% (1000, 10)
Formato HDF5
Keras fornisce un formato di salvataggio di base utilizzando lo standard HDF5 .
# Create and train a new model instance.
model = create_model()
model.fit(train_images, train_labels, epochs=5)
# Save the entire model to a HDF5 file.
# The '.h5' extension indicates that the model should be saved to HDF5.
Epoch 1/5 32/32 [==============================] - 0s 2ms/step - loss: 1.1383 - sparse_categorical_accuracy: 0.6970 Epoch 2/5 32/32 [==============================] - 0s 2ms/step - loss: 0.4094 - sparse_categorical_accuracy: 0.8920 Epoch 3/5 32/32 [==============================] - 0s 2ms/step - loss: 0.2936 - sparse_categorical_accuracy: 0.9160 Epoch 4/5 32/32 [==============================] - 0s 2ms/step - loss: 0.2050 - sparse_categorical_accuracy: 0.9460 Epoch 5/5 32/32 [==============================] - 0s 2ms/step - loss: 0.1485 - sparse_categorical_accuracy: 0.9690
Ora, ricrea il modello da quel file:
# Recreate the exact same model, including its weights and the optimizer
new_model = tf.keras.models.load_model('my_model.h5')
# Show the model architecture
Model: "sequential_6" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= dense_12 (Dense) (None, 512) 401920 dropout_6 (Dropout) (None, 512) 0 dense_13 (Dense) (None, 10) 5130 ================================================================= Total params: 407,050 Trainable params: 407,050 Non-trainable params: 0 _________________________________________________________________
Verifica la sua accuratezza:
loss, acc = new_model.evaluate(test_images, test_labels, verbose=2)
print('Restored model, accuracy: {:5.2f}%'.format(100 * acc))
32/32 - 0s - loss: 0.4266 - sparse_categorical_accuracy: 0.8620 - 141ms/epoch - 4ms/step Restored model, accuracy: 86.20%
Keras salva i modelli ispezionando le loro architetture. Questa tecnica salva tutto:
- I valori di peso
- L'architettura del modello
- La configurazione di addestramento del modello (cosa si passa al metodo
) - L'ottimizzatore e il suo stato, se presente (questo ti consente di riprendere l'allenamento da dove eri rimasto)
Keras non è in grado di salvare gli ottimizzatori v1.x
(da tf.compat.v1.train
) poiché non sono compatibili con i checkpoint. Per gli ottimizzatori v1.x, è necessario ricompilare il modello dopo il caricamento, perdendo lo stato dell'ottimizzatore.
Salvataggio di oggetti personalizzati
Se stai utilizzando il formato SavedModel, puoi saltare questa sezione. La differenza fondamentale tra HDF5 e SavedModel è che HDF5 utilizza le configurazioni degli oggetti per salvare l'architettura del modello, mentre SavedModel salva il grafico di esecuzione. Pertanto, SavedModels è in grado di salvare oggetti personalizzati come modelli di sottoclassi e livelli personalizzati senza richiedere il codice originale.
Per salvare oggetti personalizzati in HDF5, è necessario effettuare le seguenti operazioni:
- Definisci un metodo
nel tuo oggetto e, facoltativamente, un metodo difrom_config
restituisce un dizionario serializzabile JSON di parametri necessari per ricreare l'oggetto. -
from_config(cls, config)
usa la configurazione restituita daget_config
per creare un nuovo oggetto. Per impostazione predefinita, questa funzione utilizzerà la configurazione come kwargs di inizializzazione (return cls(**config)
- Passa l'oggetto all'argomento
durante il caricamento del modello. L'argomento deve essere un dizionario che associa il nome della classe stringa alla classe Python. Estf.keras.models.load_model(path, custom_objects={'CustomLayer': CustomLayer})
Vedere il tutorial sulla scrittura di livelli e modelli da zero per esempi di oggetti personalizzati e get_config
