Questa guida mostra come migrare il flusso di lavoro di formazione distribuito multi-lavoratore da TensorFlow 1 a TensorFlow 2.
Per eseguire la formazione multi-operatore con CPU/GPU:
- In TensorFlow 1, tradizionalmente utilizzi le API
. - In TensorFlow 2, usa le API Keras per scrivere il modello, la funzione di perdita, l'ottimizzatore e le metriche. Quindi, distribuisci la formazione con l'API Keras
o un ciclo di formazione personalizzato (contf.GradientTape
) tra più lavoratori contf.distribute.experimental.ParameterServerStrategy
. Per maggiori dettagli, fare riferimento ai seguenti tutorial:
Inizia con alcune importazioni necessarie e un semplice set di dati a scopo dimostrativo:
# The notebook uses a dataset instance for `` with
# `ParameterServerStrategy`, which depends on symbols in TF 2.7.
# Install a utility needed for this demonstration
!pip install portpicker
import tensorflow as tf
import tensorflow.compat.v1 as tf1
features = [[1., 1.5], [2., 2.5], [3., 3.5]]
labels = [[0.3], [0.5], [0.7]]
eval_features = [[4., 4.5], [5., 5.5], [6., 6.5]]
eval_labels = [[0.8], [0.9], [1.]]
Avrai bisogno della variabile di ambiente di configurazione 'TF_CONFIG'
per l'addestramento su più macchine in TensorFlow. Utilizzare 'TF_CONFIG'
per specificare gli indirizzi 'cluster'
e 'task'
. (Ulteriori informazioni nella guida alla formazione distribuita .)
import json
import os
tf_config = {
'cluster': {
'chief': ['localhost:11111'],
'worker': ['localhost:12345', 'localhost:23456', 'localhost:21212'],
'ps': ['localhost:12121', 'localhost:13131'],
'task': {'type': 'chief', 'index': 0}
os.environ['TF_CONFIG'] = json.dumps(tf_config)
Usa l'istruzione del
per rimuovere la variabile (ma nella formazione multi-lavoratore nel mondo reale in TensorFlow 1, non dovrai farlo):
del os.environ['TF_CONFIG']
TensorFlow 1: formazione distribuita multi-lavoratore con API tf.estimator
Il seguente frammento di codice mostra il flusso di lavoro canonico della formazione multi-lavoratore in TF1: utilizzerai tf.estimator.Estimator
, tf.estimator.TrainSpec
, tf.estimator.EvalSpec
e l'API tf.estimator.train_and_evaluate
per distribuire l'allenamento:
def _input_fn():
return, labels)).batch(1)
def _eval_input_fn():
(eval_features, eval_labels)).batch(1)
def _model_fn(features, labels, mode):
logits = tf1.layers.Dense(1)(features)
loss = tf1.losses.mean_squared_error(labels=labels, predictions=logits)
optimizer = tf1.train.AdagradOptimizer(0.05)
train_op = optimizer.minimize(loss, global_step=tf1.train.get_global_step())
return tf1.estimator.EstimatorSpec(mode, loss=loss, train_op=train_op)
estimator = tf1.estimator.Estimator(model_fn=_model_fn)
train_spec = tf1.estimator.TrainSpec(input_fn=_input_fn)
eval_spec = tf1.estimator.EvalSpec(input_fn=_eval_input_fn)
tf1.estimator.train_and_evaluate(estimator, train_spec, eval_spec)
TensorFlow 2: formazione multi-lavoratore con strategie di distribuzione
In TensorFlow 2, la formazione distribuita tra più lavoratori con CPU, GPU e TPU viene eseguita tramite tf.distribute.Strategy
L'esempio seguente mostra come usare due di queste strategie: tf.distribute.experimental.ParameterServerStrategy
e tf.distribute.MultiWorkerMirroredStrategy
, entrambe progettate per l'addestramento di CPU/GPU con più lavoratori.
impiega un coordinatore ( 'chief'
), che lo rende più compatibile con l'ambiente in questo notebook Colab. Utilizzerai qui alcune utilità per impostare gli elementi di supporto essenziali per un'esperienza eseguibile qui: creerai un cluster in-process , in cui i thread vengono utilizzati per simulare i server dei parametri ( 'ps'
) e i lavoratori ( 'worker'
) . Per ulteriori informazioni sull'addestramento del server dei parametri, fare riferimento all'esercitazione sul server dei parametri con ParameterServerStrategy .
In questo esempio, definire prima la variabile di ambiente 'TF_CONFIG'
con un tf.distribute.cluster_resolver.TFConfigClusterResolver
per fornire le informazioni sul cluster. Se stai utilizzando un sistema di gestione del cluster per la tua formazione distribuita, controlla se fornisce 'TF_CONFIG'
per te, nel qual caso non è necessario impostare esplicitamente questa variabile di ambiente. (Ulteriori informazioni nella sezione Configurazione della variabile di ambiente 'TF_CONFIG'
nella guida Distributed training with TensorFlow .)
# Find ports that are available for the `'chief'` (the coordinator),
# `'worker'`s, and `'ps'` (parameter servers).
import portpicker
chief_port = portpicker.pick_unused_port()
worker_ports = [portpicker.pick_unused_port() for _ in range(3)]
ps_ports = [portpicker.pick_unused_port() for _ in range(2)]
# Dump the cluster information to `'TF_CONFIG'`.
tf_config = {
'cluster': {
'chief': ["localhost:%s" % chief_port],
'worker': ["localhost:%s" % port for port in worker_ports],
'ps': ["localhost:%s" % port for port in ps_ports],
'task': {'type': 'chief', 'index': 0}
os.environ['TF_CONFIG'] = json.dumps(tf_config)
# Use a cluster resolver to bridge the information to the strategy created below.
cluster_resolver = tf.distribute.cluster_resolver.TFConfigClusterResolver()
Quindi, crea uno per uno tf.distribute.Server
per i worker e i server dei parametri:
# Workers need some inter_ops threads to work properly.
# This is only needed for this notebook to demo. Real servers
# should not need this.
worker_config = tf.compat.v1.ConfigProto()
worker_config.inter_op_parallelism_threads = 4
for i in range(3):
for i in range(2):
Nella formazione distribuita nel mondo reale, invece di avviare tutti i tf.distribute.Server
sul coordinatore, utilizzerai più macchine e quelle designate come "worker"
e "ps"
(server dei parametri) eseguire un tf.distribute.Server
. Per ulteriori dettagli, fare riferimento alla sezione Cluster nel mondo reale nell'esercitazione di addestramento del server dei parametri .
Con tutto pronto, crea l'oggetto ParameterServerStrategy
strategy = tf.distribute.experimental.ParameterServerStrategy(cluster_resolver)
Dopo aver creato un oggetto strategia, definire il modello, l'ottimizzatore e altre variabili e chiamare Keras Model.compile
all'interno dell'API Strategy.scope
per distribuire il training. (Per ulteriori informazioni, fare riferimento ai documenti dell'API Strategy.scope
Se si preferisce personalizzare l'allenamento definendo, ad esempio, i passaggi in avanti e all'indietro, fare riferimento alla sezione Formazione con un ciclo di addestramento personalizzato nell'esercitazione di addestramento del server dei parametri per maggiori dettagli.
dataset =
(features, labels)).shuffle(10).repeat().batch(64)
eval_dataset =
(eval_features, eval_labels)).repeat().batch(1)
with strategy.scope():
model = tf.keras.models.Sequential([tf.keras.layers.Dense(1)])
optimizer = tf.keras.optimizers.Adagrad(learning_rate=0.05)
model.compile(optimizer, "mse"), epochs=5, steps_per_epoch=10)
model.evaluate(eval_dataset, steps=10, return_dict=True)
Partizionatori (
in TensorFlow 2 supporta il partizionamento delle variabili e offre gli stessi partizionatori di TensorFlow 1, con nomi meno confusi: -tf.compat.v1.variable_axis_size_partitioner
: un partizionatore che mantiene gli shard sotto una dimensione massima) . -tf.compat.v1.min_max_variable_partitioner
: un partizionatore che alloca una dimensione minima per shard. -tf.compat.v1.fixed_size_partitioner
: un partizionatore che alloca un numero fisso di shard.
In alternativa, puoi utilizzare un oggetto MultiWorkerMirroredStrategy
# To clean up the `TF_CONFIG` used for `ParameterServerStrategy`.
del os.environ['TF_CONFIG']
strategy = tf.distribute.MultiWorkerMirroredStrategy()
È possibile sostituire la strategia utilizzata sopra con un oggetto MultiWorkerMirroredStrategy
per eseguire l'addestramento con questa strategia.
Come con le API tf.estimator
, poiché MultiWorkerMirroredStrategy
è una strategia multi-client, non esiste un modo semplice per eseguire la formazione distribuita in questo notebook Colab. Pertanto, la sostituzione del codice sopra con questa strategia finisce per eseguire le cose localmente. I tutorial di formazione multi-lavoratore con Keras ciclo di formazione personalizzato mostrano come eseguire la formazione multi-lavoratore con la variabile 'TF_CONFIG'
impostata, con due lavoratori su un localhost in Colab. In pratica, creeresti più lavoratori su indirizzi/porte IP esterni e utilizzeresti la variabile 'TF_CONFIG'
per specificare la configurazione del cluster per ogni lavoratore.
Prossimi passi
Per ulteriori informazioni sulla formazione distribuita multi-lavoratore con tf.distribute.experimental.ParameterServerStrategy
e tf.distribute.MultiWorkerMirroredStrategy
in TensorFlow 2, considera le seguenti risorse:
- Esercitazione: training del server dei parametri con ParameterServerStrategy e Keras ciclo di training personalizzato
- Tutorial: formazione multi-lavoratore con MultiWorkerMirroredStrategy e Keras
- Tutorial: formazione multi-lavoratore con MultiWorkerMirroredStrategy e un ciclo di formazione personalizzato
- Guida: formazione distribuita con TensorFlow
- Guida: ottimizza le prestazioni della GPU TensorFlow con TensorFlow Profiler
- Guida: utilizzare una GPU (la sezione Utilizzo di più GPU)