از TPUEestimator به TPUStrategy مهاجرت کنید

این راهنما نشان می دهد که چگونه می توانید گردش های کاری خود را که روی TPU ها اجرا می شوند از API TPUEstimator TensorFlow 1 به TPUEstimator API TPUStrategy 2 منتقل کنید.

  • در TensorFlow 1، tf.compat.v1.estimator.tpu.TPUEstimator API به شما این امکان را می دهد که یک مدل را آموزش دهید و ارزیابی کنید، و همچنین مدل خود را (برای ارائه) در TPU های (Cloud) انجام دهید و ذخیره کنید.
  • در TensorFlow 2، برای انجام آموزش همزمان بر روی TPU ها و TPU Pods (مجموعه ای از دستگاه های TPU متصل شده توسط رابط های شبکه پرسرعت اختصاصی)، باید از یک استراتژی توزیع TPU استفاده tf.distribute.TPUStrategy . این استراتژی می‌تواند با APIهای Keras - از جمله برای ساخت مدل ( tf.keras.Model )، بهینه‌سازها ( tf.keras.optimizers.Optimizer ) و آموزش ( Model.fit ) - و همچنین یک حلقه آموزشی سفارشی (با tf.function ) کار کند. tf.function و tf.GradientTape ).

برای مثال‌های سرتاسری TensorFlow 2، راهنمای استفاده از TPUs - یعنی بخش طبقه‌بندی در TPUs - و آموزش حل وظایف GLUE با استفاده از BERT در TPU را بررسی کنید. همچنین ممکن است راهنمای آموزشی Distributed برای شما مفید باشد که تمام استراتژی های توزیع TensorFlow از جمله TPUStrategy را پوشش می دهد.


با واردات و یک مجموعه داده ساده برای اهداف نمایشی شروع کنید:

import tensorflow as tf
import tensorflow.compat.v1 as tf1
features = [[1., 1.5]]
= [[0.3]]
= [[4., 4.5]]
= [[0.8]]

TensorFlow 1: یک مدل را روی TPU ها با TPUEstimator هدایت کنید

این بخش از راهنما نحوه انجام آموزش و ارزیابی را با tf.compat.v1.estimator.tpu.TPUEstimator در TensorFlow 1 نشان می دهد.

برای استفاده از TPUEstimator ، ابتدا چند تابع تعریف کنید: یک تابع ورودی برای داده‌های آموزشی، یک تابع ورودی ارزیابی برای داده‌های ارزیابی، و یک تابع مدل که به TPUEstimator چگونه عملیات آموزشی با ویژگی‌ها و برچسب‌ها تعریف می‌شود:

def _input_fn(params):
= tf1.data.Dataset.from_tensor_slices((features, labels))
= dataset.repeat()
return dataset.batch(params['batch_size'], drop_remainder=True)

def _eval_input_fn(params):
= tf1.data.Dataset.from_tensor_slices((eval_features, eval_labels))
= dataset.repeat()
return dataset.batch(params['batch_size'], drop_remainder=True)

def _model_fn(features, labels, mode, params):
= tf1.layers.Dense(1)(features)
= tf1.losses.mean_squared_error(labels=labels, predictions=logits)
= tf1.train.AdagradOptimizer(0.05)
= optimizer.minimize(loss, global_step=tf1.train.get_global_step())
return tf1.estimator.tpu.TPUEstimatorSpec(mode, loss=loss, train_op=train_op)

با تعریف این توابع، یک tf.distribute.cluster_resolver.TPUClusterResolver که اطلاعات خوشه را ارائه می کند و یک شی tf.compat.v1.estimator.tpu.RunConfig کنید. همراه با تابع مدلی که تعریف کرده اید، اکنون می توانید یک TPUEstimator ایجاد کنید. در اینجا، با صرف نظر از صرفه جویی در ایست بازرسی، جریان را ساده می کنید. سپس، اندازه دسته را هم برای آموزش و هم برای ارزیابی برای TPUEstimator .

cluster_resolver = tf1.distribute.cluster_resolver.TPUClusterResolver(tpu='')
print("All devices: ", tf1.config.list_logical_devices('TPU'))
All devices:  []
tpu_config = tf1.estimator.tpu.TPUConfig(iterations_per_loop=10)
= tf1.estimator.tpu.RunConfig(
= tf1.estimator.tpu.TPUEstimator(
WARNING:tensorflow:Estimator's model_fn (<function _model_fn at 0x7fef73ae76a8>) includes params argument, but params are not passed to Estimator.
WARNING:tensorflow:Using temporary folder as model directory: /tmp/tmp_bkua7zf
INFO:tensorflow:Using config: {'_model_dir': '/tmp/tmp_bkua7zf', '_tf_random_seed': None, '_save_summary_steps': 100, '_save_checkpoints_steps': None, '_save_checkpoints_secs': None, '_session_config': allow_soft_placement: true
cluster_def {
  job {
    name: "worker"
    tasks {
      key: 0
      value: ""
isolate_session_state: true
, '_keep_checkpoint_max': 5, '_keep_checkpoint_every_n_hours': 10000, '_log_step_count_steps': None, '_train_distribute': None, '_device_fn': None, '_protocol': None, '_eval_distribute': None, '_experimental_distribute': None, '_experimental_max_worker_delay_secs': None, '_session_creation_timeout_secs': 7200, '_checkpoint_save_graph_def': True, '_service': None, '_cluster_spec': ClusterSpec({'worker': ['']}), '_task_type': 'worker', '_task_id': 0, '_global_id_in_cluster': 0, '_master': 'grpc://', '_evaluation_master': 'grpc://', '_is_chief': True, '_num_ps_replicas': 0, '_num_worker_replicas': 1, '_tpu_config': TPUConfig(iterations_per_loop=10, num_shards=None, num_cores_per_replica=None, per_host_input_for_training=2, tpu_job_name=None, initial_infeed_sleep_secs=None, input_partition_dims=None, eval_training_input_configuration=2, experimental_host_call_every_n_steps=1, experimental_allow_per_host_v2_parallel_get_next=False, experimental_feed_hook=None), '_cluster': <tensorflow.python.distribute.cluster_resolver.tpu.tpu_cluster_resolver.TPUClusterResolver object at 0x7ff288b6aa20>}
INFO:tensorflow:_TPUContext: eval_on_tpu True

برای شروع آموزش مدل با TPUEstimator.train تماس بگیرید:

estimator.train(_input_fn, steps=1)
INFO:tensorflow:Querying Tensorflow master (grpc:// for TPU system metadata.
INFO:tensorflow:Found TPU system:
INFO:tensorflow:*** Num TPU Cores: 8
INFO:tensorflow:*** Num TPU Workers: 1
INFO:tensorflow:*** Num TPU Cores Per Worker: 8
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:CPU:0, CPU, -1, 2562214468325910549)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:0, TPU, 17179869184, 7806191887455116208)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:1, TPU, 17179869184, 4935096526614797404)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:2, TPU, 17179869184, 6208852770722846295)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:3, TPU, 17179869184, -4484747666522931072)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:4, TPU, 17179869184, -8715412538518264422)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:5, TPU, 17179869184, -3521027846460785533)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:6, TPU, 17179869184, -6534172152637582552)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:7, TPU, 17179869184, 4735861352635655596)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU_SYSTEM:0, TPU_SYSTEM, 17179869184, -411508280321075475)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:XLA_CPU:0, XLA_CPU, 17179869184, 2431932884271560631)
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/training_util.py:236: Variable.initialized_value (from tensorflow.python.ops.variables) is deprecated and will be removed in a future version.
Instructions for updating:
Use Variable.read_value. Variables in 2.X are initialized automatically both in eager and graph (inside tf.defun) contexts.
INFO:tensorflow:Calling model_fn.
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/training/adagrad.py:77: calling Constant.__init__ (from tensorflow.python.ops.init_ops) with dtype is deprecated and will be removed in a future version.
Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
INFO:tensorflow:Bypassing TPUEstimator hook
INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:TPU job name worker
INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow_estimator/python/estimator/tpu/tpu_estimator.py:758: Variable.load (from tensorflow.python.ops.variables) is deprecated and will be removed in a future version.
Instructions for updating:
Prefer Variable.assign which has equivalent behavior in 2.X.
INFO:tensorflow:Initialized dataset iterators in 0 seconds
INFO:tensorflow:Installing graceful shutdown hook.
INFO:tensorflow:Creating heartbeat manager for ['/job:worker/replica:0/task:0/device:CPU:0']
INFO:tensorflow:Configuring worker heartbeat: shutdown_mode: WAIT_FOR_COORDINATOR

INFO:tensorflow:Init TPU system
INFO:tensorflow:Initialized TPU in 7 seconds
INFO:tensorflow:Starting infeed thread controller.
INFO:tensorflow:Starting outfeed thread controller.
INFO:tensorflow:Enqueue next (1) batch(es) of data to infeed.
INFO:tensorflow:Dequeue next (1) batch(es) of data from outfeed.
INFO:tensorflow:Outfeed finished for iteration (0, 0)
INFO:tensorflow:loss = 4.462118, step = 1
INFO:tensorflow:Stop infeed thread controller
INFO:tensorflow:Shutting down InfeedController thread.
INFO:tensorflow:InfeedController received shutdown signal, stopping.
INFO:tensorflow:Infeed thread finished, shutting down.
INFO:tensorflow:infeed marked as finished
INFO:tensorflow:Stop output thread controller
INFO:tensorflow:Shutting down OutfeedController thread.
INFO:tensorflow:OutfeedController received shutdown signal, stopping.
INFO:tensorflow:Outfeed thread finished, shutting down.
INFO:tensorflow:outfeed marked as finished
INFO:tensorflow:Shutdown TPU system.
INFO:tensorflow:Loss for final step: 4.462118.
INFO:tensorflow:training_loop marked as finished
<tensorflow_estimator.python.estimator.tpu.tpu_estimator.TPUEstimator at 0x7fec59ef9d68>

سپس، TPUEstimator.evaluate را برای ارزیابی مدل با استفاده از داده های ارزیابی فراخوانی کنید:

estimator.evaluate(_eval_input_fn, steps=1)
INFO:tensorflow:Could not find trained model in model_dir: /tmp/tmp_bkua7zf, running initialization to evaluate.
INFO:tensorflow:Calling model_fn.
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow_estimator/python/estimator/tpu/tpu_estimator.py:3406: div (from tensorflow.python.ops.math_ops) is deprecated and will be removed in a future version.
Instructions for updating:
Deprecated in favor of operator or tf.math.divide.
INFO:tensorflow:Done calling model_fn.
INFO:tensorflow:Starting evaluation at 2022-02-05T13:15:25
INFO:tensorflow:TPU job name worker
INFO:tensorflow:Graph was finalized.
INFO:tensorflow:Running local_init_op.
INFO:tensorflow:Done running local_init_op.
INFO:tensorflow:Init TPU system
INFO:tensorflow:Initialized TPU in 10 seconds
INFO:tensorflow:Starting infeed thread controller.
INFO:tensorflow:Starting outfeed thread controller.
INFO:tensorflow:Initialized dataset iterators in 0 seconds
INFO:tensorflow:Enqueue next (1) batch(es) of data to infeed.
INFO:tensorflow:Dequeue next (1) batch(es) of data from outfeed.
INFO:tensorflow:Outfeed finished for iteration (0, 0)
INFO:tensorflow:Evaluation [1/1]
INFO:tensorflow:Stop infeed thread controller
INFO:tensorflow:Shutting down InfeedController thread.
INFO:tensorflow:InfeedController received shutdown signal, stopping.
INFO:tensorflow:Infeed thread finished, shutting down.
INFO:tensorflow:infeed marked as finished
INFO:tensorflow:Stop output thread controller
INFO:tensorflow:Shutting down OutfeedController thread.
INFO:tensorflow:OutfeedController received shutdown signal, stopping.
INFO:tensorflow:Outfeed thread finished, shutting down.
INFO:tensorflow:outfeed marked as finished
INFO:tensorflow:Shutdown TPU system.
INFO:tensorflow:Inference Time : 10.80091s
INFO:tensorflow:Finished evaluation at 2022-02-05-13:15:36
INFO:tensorflow:Saving dict for global step 1: global_step = 1, loss = 116.58184
INFO:tensorflow:evaluation_loop marked as finished
{'loss': 116.58184, 'global_step': 1}

TensorFlow 2: با Keras Model.fit و TPUStrategy یک مدل را روی TPU ها هدایت کنید

در TensorFlow 2، برای آموزش کارگران TPU، از tf.distribute.TPUStrategy همراه با Keras API برای تعریف مدل و آموزش/ارزیابی استفاده کنید. (برای مثال‌های بیشتر از آموزش با Keras Model.fit و یک حلقه آموزشی سفارشی (با tf.function و tf.GradientTape به راهنمای استفاده از TPUs مراجعه کنید).

از آنجایی که برای اتصال به خوشه راه دور و راه اندازی اولیه کارگران TPU باید مقداری کار اولیه انجام دهید، با ایجاد یک TPUClusterResolver برای ارائه اطلاعات خوشه و اتصال به خوشه شروع کنید. (در بخش مقداردهی اولیه TPU در راهنمای استفاده از TPUs بیشتر بیاموزید.)

cluster_resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='')
print("All devices: ", tf.config.list_logical_devices('TPU'))
INFO:tensorflow:Clearing out eager caches
INFO:tensorflow:Clearing out eager caches
INFO:tensorflow:Initializing the TPU system: grpc://
INFO:tensorflow:Initializing the TPU system: grpc://
INFO:tensorflow:Finished initializing TPU system.
INFO:tensorflow:Finished initializing TPU system.
All devices:  [LogicalDevice(name='/job:worker/replica:0/task:0/device:TPU:0', device_type='TPU'), LogicalDevice(name='/job:worker/replica:0/task:0/device:TPU:1', device_type='TPU'), LogicalDevice(name='/job:worker/replica:0/task:0/device:TPU:2', device_type='TPU'), LogicalDevice(name='/job:worker/replica:0/task:0/device:TPU:3', device_type='TPU'), LogicalDevice(name='/job:worker/replica:0/task:0/device:TPU:4', device_type='TPU'), LogicalDevice(name='/job:worker/replica:0/task:0/device:TPU:5', device_type='TPU'), LogicalDevice(name='/job:worker/replica:0/task:0/device:TPU:6', device_type='TPU'), LogicalDevice(name='/job:worker/replica:0/task:0/device:TPU:7', device_type='TPU')]

در مرحله بعد، هنگامی که داده های شما آماده شد، یک TPUStrategy ایجاد می کنید، یک مدل، معیارها و یک بهینه ساز را در محدوده این استراتژی تعریف می کنید.

برای دستیابی به سرعت تمرین قابل مقایسه با TPUStrategy ، باید مطمئن شوید که یک عدد برای steps_per_execution در Model.compile انتخاب کنید زیرا تعداد دسته‌هایی را که در طول هر تماس tf.function اجرا می‌شوند مشخص می‌کند و برای عملکرد بسیار مهم است. این آرگومان شبیه iterations_per_loop است که در TPUEstimator استفاده می شود. اگر از حلقه‌های آموزشی سفارشی استفاده می‌کنید، باید مطمئن شوید که چندین مرحله در تابع آموزشی tf.function اجرا می‌شوند. برای اطلاعات بیشتر به بخش بهبود عملکرد با چند مرحله در داخل بخش tf.function راهنمای استفاده از TPUs بروید.

tf.distribute.TPUStrategy می‌تواند از اشکال دینامیکی محدود پشتیبانی کند، که در این صورت می‌توان حد بالایی محاسبه شکل پویا را استنباط کرد. اما اشکال پویا ممکن است در مقایسه با اشکال استاتیک مقداری کارایی بالا را ایجاد کنند. بنابراین، به طور کلی توصیه می شود که اشکال ورودی خود را در صورت امکان، به خصوص در تمرین، ثابت کنید. یکی از عملیات های رایج که یک شکل پویا را برمی گرداند tf.data.Dataset.batch(batch_size) است، زیرا تعداد نمونه های باقی مانده در یک جریان ممکن است کمتر از اندازه دسته باشد. بنابراین، هنگام آموزش بر روی TPU، باید از tf.data.Dataset.batch(..., drop_remainder=True) برای بهترین عملکرد آموزشی استفاده کنید.

dataset = tf.data.Dataset.from_tensor_slices(
(features, labels)).shuffle(10).repeat().batch(
8, drop_remainder=True).prefetch(2)
= tf.data.Dataset.from_tensor_slices(
(eval_features, eval_labels)).batch(1, drop_remainder=True)

= tf.distribute.TPUStrategy(cluster_resolver)
with strategy.scope():
= tf.keras.models.Sequential([tf.keras.layers.Dense(1)])
= tf.keras.optimizers.Adagrad(learning_rate=0.05)
.compile(optimizer, "mse", steps_per_execution=10)
INFO:tensorflow:Found TPU system:
INFO:tensorflow:Found TPU system:
INFO:tensorflow:*** Num TPU Cores: 8
INFO:tensorflow:*** Num TPU Cores: 8
INFO:tensorflow:*** Num TPU Workers: 1
INFO:tensorflow:*** Num TPU Workers: 1
INFO:tensorflow:*** Num TPU Cores Per Worker: 8
INFO:tensorflow:*** Num TPU Cores Per Worker: 8
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:CPU:0, CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:localhost/replica:0/task:0/device:CPU:0, CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:CPU:0, CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:CPU:0, CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:0, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:0, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:1, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:1, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:2, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:2, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:3, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:3, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:4, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:4, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:5, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:5, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:6, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:6, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:7, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU:7, TPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU_SYSTEM:0, TPU_SYSTEM, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:TPU_SYSTEM:0, TPU_SYSTEM, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:XLA_CPU:0, XLA_CPU, 0, 0)
INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task:0/device:XLA_CPU:0, XLA_CPU, 0, 0)

با این کار، شما آماده آموزش مدل با مجموعه داده آموزشی هستید:

model.fit(dataset, epochs=5, steps_per_epoch=10)
Epoch 1/5
10/10 [==============================] - 2s 151ms/step - loss: 0.0840
Epoch 2/5
10/10 [==============================] - 0s 3ms/step - loss: 9.6915e-04
Epoch 3/5
10/10 [==============================] - 0s 3ms/step - loss: 1.5100e-05
Epoch 4/5
10/10 [==============================] - 0s 3ms/step - loss: 2.3593e-07
Epoch 5/5
10/10 [==============================] - 0s 3ms/step - loss: 3.7059e-09
<keras.callbacks.History at 0x7fec58275438>

در نهایت، مدل را با استفاده از مجموعه داده ارزیابی ارزیابی کنید:

model.evaluate(eval_dataset, return_dict=True)
1/1 [==============================] - 2s 2s/step - loss: 0.6127
{'loss': 0.6127181053161621}

مراحل بعدی

برای کسب اطلاعات بیشتر در مورد TPUStrategy در TensorFlow 2، منابع زیر را در نظر بگیرید:

برای کسب اطلاعات بیشتر در مورد سفارشی کردن آموزش خود، به آدرس زیر مراجعه کنید:

TPUها - ASICهای تخصصی Google برای یادگیری ماشینی - از طریق Google Colab ، TPU Research Cloud و Cloud TPU در دسترس هستند.