Este guia demonstra como migrar seus fluxos de trabalho executados em TPUs da API TPUEstimator do TPUEstimator
1 para a API TPUStrategy do TPUStrategy
- No TensorFlow 1, a API
permite treinar e avaliar um modelo, além de realizar inferências e salvar seu modelo (para veiculação) em TPUs (nuvem). - No TensorFlow 2, para realizar treinamento síncrono em TPUs e TPU Pods (uma coleção de dispositivos TPU conectados por interfaces de rede dedicadas de alta velocidade), você precisa usar uma estratégia de distribuição de TPU
. A estratégia pode funcionar com as APIs Keras — inclusive para construção de modelos (tf.keras.Model
), otimizadores (tf.keras.optimizers.Optimizer
) e treinamento (
) — bem como um loop de treinamento personalizado (comtf.function
Para exemplos completos do TensorFlow 2, confira o guia Use TPUs , ou seja, a seção Classificação em TPUs , e o tutorial Resolver tarefas GLUE usando BERT em TPU . Você também pode achar útil o guia de treinamento distribuído , que abrange todas as estratégias de distribuição do TensorFlow, incluindo TPUStrategy
Comece com importações e um conjunto de dados simples para fins de demonstração:
import tensorflow as tf
import tensorflow.compat.v1 as tf1
features = [[1., 1.5]]
labels = [[0.3]]
eval_features = [[4., 4.5]]
eval_labels = [[0.8]]
TensorFlow 1: conduza um modelo em TPUs com TPUEstimator
Esta seção do guia demonstra como realizar treinamento e avaliação com tf.compat.v1.estimator.tpu.TPUEstimator
no TensorFlow 1.
Para usar um TPUEstimator
, primeiro defina algumas funções: uma função de entrada para os dados de treinamento, uma função de entrada de avaliação para os dados de avaliação e uma função de modelo que informa ao TPUEstimator
como a operação de treinamento é definida com os recursos e rótulos:
def _input_fn(params):
dataset =, labels))
dataset = dataset.repeat()
return dataset.batch(params['batch_size'], drop_remainder=True)
def _eval_input_fn(params):
dataset =, eval_labels))
dataset = dataset.repeat()
return dataset.batch(params['batch_size'], drop_remainder=True)
def _model_fn(features, labels, mode, params):
logits = tf1.layers.Dense(1)(features)
loss = tf1.losses.mean_squared_error(labels=labels, predictions=logits)
optimizer = tf1.train.AdagradOptimizer(0.05)
train_op = optimizer.minimize(loss, global_step=tf1.train.get_global_step())
return tf1.estimator.tpu.TPUEstimatorSpec(mode, loss=loss, train_op=train_op)
Com essas funções definidas, crie um tf.distribute.cluster_resolver.TPUClusterResolver
que forneça as informações do cluster e um objeto tf.compat.v1.estimator.tpu.RunConfig
. Junto com a função de modelo que você definiu, agora você pode criar um TPUEstimator
. Aqui, você simplificará o fluxo ignorando a economia de pontos de verificação. Em seguida, você especificará o tamanho do lote para treinamento e avaliação para o TPUEstimator
cluster_resolver = tf1.distribute.cluster_resolver.TPUClusterResolver(tpu='')
print("All devices: ", tf1.config.list_logical_devices('TPU'))
All devices: []
tpu_config = tf1.estimator.tpu.TPUConfig(iterations_per_loop=10)
config = tf1.estimator.tpu.RunConfig(
estimator = tf1.estimator.tpu.TPUEstimator(
Chame TPUEstimator.train
para começar a treinar o modelo:
estimator.train(_input_fn, steps=1)
Em seguida, chame TPUEstimator.evaluate
para avaliar o modelo usando os dados de avaliação:
estimator.evaluate(_eval_input_fn, steps=1)
TensorFlow 2: conduza um modelo em TPUs com Keras e TPUStrategy
No TensorFlow 2, para treinar nos trabalhadores da TPU, use tf.distribute.TPUStrategy
junto com as APIs Keras para definição de modelo e treinamento/avaliação. (Consulte o guia Use TPUs para obter mais exemplos de treinamento com Keras
e um loop de treinamento personalizado (com tf.function
e tf.GradientTape
Como você precisa executar algum trabalho de inicialização para se conectar ao cluster remoto e inicializar os trabalhadores da TPU, comece criando um TPUClusterResolver
para fornecer as informações do cluster e conectar-se ao cluster. (Saiba mais na seção de inicialização da TPU do guia Usar TPUs .)
cluster_resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='')
print("All devices: ", tf.config.list_logical_devices('TPU'))
Em seguida, uma vez que seus dados estejam preparados, você criará um TPUStrategy
, definirá um modelo, métricas e um otimizador no escopo dessa estratégia.
Para obter velocidade de treinamento comparável com TPUStrategy
, você deve escolher um número para steps_per_execution
em Model.compile
porque ele especifica o número de lotes a serem executados durante cada chamada de tf.function
e é fundamental para o desempenho. Esse argumento é semelhante ao iterations_per_loop
usado em um TPUEstimator
. Se você estiver usando loops de treinamento personalizados, certifique-se de que várias etapas sejam executadas na função de treinamento tf.function
-ed. Acesse a seção Melhorando o desempenho com várias etapas dentro de tf.function do guia Usar TPUs para obter mais informações.
pode suportar formas dinâmicas limitadas, que é o caso em que o limite superior da computação de forma dinâmica pode ser inferido. Mas as formas dinâmicas podem apresentar alguma sobrecarga de desempenho em comparação com as formas estáticas. Portanto, geralmente é recomendável tornar suas formas de entrada estáticas, se possível, especialmente no treinamento. Uma operação comum que retorna uma forma dinâmica é
, pois o número de amostras restantes em um fluxo pode ser menor que o tamanho do lote. Portanto, ao treinar na TPU, você deve usar, drop_remainder=True)
para obter o melhor desempenho de treinamento.
dataset =
(features, labels)).shuffle(10).repeat().batch(
8, drop_remainder=True).prefetch(2)
eval_dataset =
(eval_features, eval_labels)).batch(1, drop_remainder=True)
strategy = tf.distribute.TPUStrategy(cluster_resolver)
with strategy.scope():
model = tf.keras.models.Sequential([tf.keras.layers.Dense(1)])
optimizer = tf.keras.optimizers.Adagrad(learning_rate=0.05)
model.compile(optimizer, "mse", steps_per_execution=10)
Com isso, você está pronto para treinar o modelo com o conjunto de dados de treinamento:, epochs=5, steps_per_epoch=10)
Epoch 1/5 10/10 [==============================] - 2s 151ms/step - loss: 0.0840 Epoch 2/5 10/10 [==============================] - 0s 3ms/step - loss: 9.6915e-04 Epoch 3/5 10/10 [==============================] - 0s 3ms/step - loss: 1.5100e-05 Epoch 4/5 10/10 [==============================] - 0s 3ms/step - loss: 2.3593e-07 Epoch 5/5 10/10 [==============================] - 0s 3ms/step - loss: 3.7059e-09 <keras.callbacks.History at 0x7fec58275438>
Por fim, avalie o modelo usando o conjunto de dados de avaliação:
model.evaluate(eval_dataset, return_dict=True)
1/1 [==============================] - 2s 2s/step - loss: 0.6127 {'loss': 0.6127181053161621}
Próximos passos
Para saber mais sobre TPUStrategy
no TensorFlow 2, considere os seguintes recursos:
- Guia: Use TPUs (abrangendo treinamento com Keras
/um loop de treinamento personalizado comtf.distribute.TPUStrategy
, além de dicas sobre como melhorar o desempenho comtf.function
) - Guia: treinamento distribuído com TensorFlow
Para saber mais sobre como personalizar seu treinamento, consulte:
TPUs — ASICs especializados do Google para aprendizado de máquina — estão disponíveis por meio do Google Colab , do TPU Research Cloud e do Cloud TPU .