Descripción general
Este tutorial demuestra cómo se puede usar tf.distribute.Strategy
para la capacitación distribuida de varios trabajadores con tf.estimator
. Si escribe su código usando tf.estimator
y está interesado en escalar más allá de una sola máquina con alto rendimiento, este tutorial es para usted.
Antes de comenzar, lea la guía de estrategia de distribución . El tutorial de entrenamiento multi-GPU también es relevante, porque este tutorial usa el mismo modelo.
Primero, configure TensorFlow y las importaciones necesarias.
import tensorflow_datasets as tfds
import tensorflow as tf
import os, json
Función de entrada
Este tutorial usa el conjunto de datos MNIST de TensorFlow Datasets . El código aquí es similar al tutorial de capacitación de múltiples GPU con una diferencia clave: cuando se usa Estimator para la capacitación de varios trabajadores, es necesario fragmentar el conjunto de datos por la cantidad de trabajadores para garantizar la convergencia del modelo. Los datos de entrada se fragmentan por índice de trabajador, de modo que cada trabajador procesa 1/num_workers
porciones distintas del conjunto de datos.
def input_fn(mode, input_context=None):
datasets, info = tfds.load(name='mnist',
mnist_dataset = (datasets['train'] if mode == tf.estimator.ModeKeys.TRAIN else
def scale(image, label):
image = tf.cast(image, tf.float32)
image /= 255
return image, label
if input_context:
mnist_dataset = mnist_dataset.shard(input_context.num_input_pipelines,
return mnist_dataset.map(scale).cache().shuffle(BUFFER_SIZE).batch(BATCH_SIZE)
Otro enfoque razonable para lograr la convergencia sería barajar el conjunto de datos con distintas semillas en cada trabajador.
Configuración de varios trabajadores
Una de las diferencias clave en este tutorial (en comparación con el tutorial de capacitación de múltiples GPU ) es la configuración de varios trabajadores. La variable de entorno TF_CONFIG
es la forma estándar de especificar la configuración del clúster para cada trabajador que forma parte del clúster.
Hay dos componentes de TF_CONFIG
: cluster
y task
. cluster
proporciona información sobre todo el clúster, es decir, los trabajadores y los servidores de parámetros en el clúster. task
proporciona información sobre la tarea actual. El primer componente del cluster
es el mismo para todos los trabajadores y servidores de parámetros del clúster, y la task
del segundo componente es diferente en cada trabajador y servidor de parámetros y especifica su propio type
e index
. En este ejemplo, el type
de tarea es worker
y el index
la tarea es 0
Con fines ilustrativos, este tutorial muestra cómo configurar un TF_CONFIG
con 2 trabajadores en localhost
. En la práctica, crearía varios trabajadores en una dirección IP y un puerto externos, y establecería TF_CONFIG
en cada trabajador de forma adecuada, es decir, modificaría el index
os.environ['TF_CONFIG'] = json.dumps({
'cluster': {
'worker': ["localhost:12345", "localhost:23456"]
'task': {'type': 'worker', 'index': 0}
Definir el modelo
Escriba las capas, el optimizador y la función de pérdida para el entrenamiento. Este tutorial define el modelo con capas de Keras, similar al tutorial de entrenamiento multi-GPU .
def model_fn(features, labels, mode):
model = tf.keras.Sequential([
tf.keras.layers.Conv2D(32, 3, activation='relu', input_shape=(28, 28, 1)),
tf.keras.layers.Dense(64, activation='relu'),
logits = model(features, training=False)
if mode == tf.estimator.ModeKeys.PREDICT:
predictions = {'logits': logits}
return tf.estimator.EstimatorSpec(labels=labels, predictions=predictions)
optimizer = tf.compat.v1.train.GradientDescentOptimizer(
loss = tf.keras.losses.SparseCategoricalCrossentropy(
from_logits=True, reduction=tf.keras.losses.Reduction.NONE)(labels, logits)
loss = tf.reduce_sum(loss) * (1. / BATCH_SIZE)
if mode == tf.estimator.ModeKeys.EVAL:
return tf.estimator.EstimatorSpec(mode, loss=loss)
return tf.estimator.EstimatorSpec(
loss, tf.compat.v1.train.get_or_create_global_step()))
Para entrenar el modelo, use una instancia de tf.distribute.experimental.MultiWorkerMirroredStrategy
. MultiWorkerMirroredStrategy
crea copias de todas las variables en las capas del modelo en cada dispositivo de todos los trabajadores. Utiliza CollectiveOps
, una operación de TensorFlow para la comunicación colectiva, para agregar gradientes y mantener las variables sincronizadas. La guía tf.distribute.Strategy
tiene más detalles sobre esta estrategia.
strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy()
Entrenar y evaluar el modelo.
A continuación, especifique la estrategia de distribución en RunConfig
para el estimador, y entrene y evalúe invocando tf.estimator.train_and_evaluate
. Este tutorial distribuye solo el entrenamiento especificando la estrategia a través train_distribute
. También es posible distribuir la evaluación a través eval_distribute
config = tf.estimator.RunConfig(train_distribute=strategy)
classifier = tf.estimator.Estimator(
model_fn=model_fn, model_dir='/tmp/multiworker', config=config)
Optimizar el rendimiento del entrenamiento
Ahora tiene un modelo y un estimador con capacidad para varios trabajadores impulsado por tf.distribute.Strategy
. Puede probar las siguientes técnicas para optimizar el rendimiento de la capacitación de varios trabajadores:
- Aumente el tamaño del lote: el tamaño del lote especificado aquí es por GPU. En general, se recomienda el tamaño de lote más grande que se ajuste a la memoria de la GPU.
- Cast variables: Cast las variables a
si es posible. El modelo oficial de ResNet incluye un ejemplo de cómo se puede hacer esto. Utilice la comunicación colectiva:
proporciona múltiples implementaciones de comunicación colectiva .-
implementa colectivos basados en anillos mediante gRPC como capa de comunicación entre hosts. -
usa NCCL de Nvidia para implementar colectivos. -
difiere la elección al tiempo de ejecución.
La mejor opción de implementación colectiva depende de la cantidad y el tipo de GPU y la interconexión de red en el clúster. Para anular la elección automática, especifique un valor válido para el parámetro de
del constructor deMultiWorkerMirroredStrategy
, por ejemplo,communication=tf.distribute.experimental.CollectiveCommunication.NCCL
Visite la sección Rendimiento de la guía para obtener más información sobre otras estrategias y herramientas que puede usar para optimizar el rendimiento de sus modelos de TensorFlow.
Otros ejemplos de código
- Ejemplo de extremo a extremo para la capacitación de varios trabajadores en tensorflow/ecosistema utilizando plantillas de Kubernetes. Este ejemplo comienza con un modelo de Keras y lo convierte en un estimador utilizando la API
. - Modelos oficiales , muchos de los cuales se pueden configurar para ejecutar múltiples estrategias de distribución.