يوضح هذا الدليل كيفية ترحيل تدفقات العمل التي تعمل على TPU من TensorFlow 1's TPUEstimator
API إلى TPUStrategy في TPUStrategy
- في TensorFlow 1 ، تتيح لك واجهة برمجة تطبيقات
تدريب نموذج وتقييمه ، بالإضافة إلى إجراء الاستدلال وحفظ النموذج الخاص بك (للخدمة) على (Cloud) TPUs. - في TensorFlow 2 ، لإجراء تدريب متزامن على TPUs و TPU Pods (مجموعة من أجهزة TPU المتصلة بواسطة واجهات شبكة مخصصة عالية السرعة) ، تحتاج إلى استخدام استراتيجية توزيع TPU
. يمكن أن تعمل الإستراتيجية مع واجهات برمجة تطبيقات Keras - بما في ذلك بناء النماذج (tf.keras.Model
) والمحسِّنون (tf.keras.optimizers.Optimizer
) والتدريب (Model.fit
) - بالإضافة إلى حلقة تدريب مخصصة (باستخدامtf.function
للحصول على أمثلة TensorFlow 2 من طرف إلى طرف ، راجع دليل استخدام TPU - أي قسم التصنيف على TPU - ومهام Solve GLUE باستخدام BERT في البرنامج التعليمي لـ TPU . قد تجد أيضًا دليل التدريب الموزع مفيدًا ، والذي يغطي جميع استراتيجيات توزيع TensorFlow ، بما في ذلك TPUStrategy
ابدأ بالواردات ومجموعة بيانات بسيطة لأغراض التوضيح:
import tensorflow as tf
import tensorflow.compat.v1 as tf1
features = [[1., 1.5]]
labels = [[0.3]]
eval_features = [[4., 4.5]]
eval_labels = [[0.8]]
TensorFlow 1: قم بقيادة نموذج على TPU مع TPUEstimator
يوضح هذا القسم من الدليل كيفية إجراء التدريب والتقييم باستخدام tf.compat.v1.estimator.tpu.TPUEstimator
في TensorFlow 1.
لاستخدام TPUEstimator
، حدد أولاً بعض الوظائف: وظيفة إدخال لبيانات التدريب ، ووظيفة إدخال تقييم لبيانات التقييم ، ووظيفة نموذجية تخبر TPUEstimator
بكيفية تعريف عملية التدريب بالميزات والتسميات:
def _input_fn(params):
dataset = tf1.data.Dataset.from_tensor_slices((features, labels))
dataset = dataset.repeat()
return dataset.batch(params['batch_size'], drop_remainder=True)
def _eval_input_fn(params):
dataset = tf1.data.Dataset.from_tensor_slices((eval_features, eval_labels))
dataset = dataset.repeat()
return dataset.batch(params['batch_size'], drop_remainder=True)
def _model_fn(features, labels, mode, params):
logits = tf1.layers.Dense(1)(features)
loss = tf1.losses.mean_squared_error(labels=labels, predictions=logits)
optimizer = tf1.train.AdagradOptimizer(0.05)
train_op = optimizer.minimize(loss, global_step=tf1.train.get_global_step())
return tf1.estimator.tpu.TPUEstimatorSpec(mode, loss=loss, train_op=train_op)
مع تحديد هذه الوظائف ، قم بإنشاء tf.distribute.cluster_resolver.TPUClusterResolver
الذي يوفر معلومات الكتلة ، tf.compat.v1.estimator.tpu.RunConfig
. إلى جانب وظيفة النموذج التي حددتها ، يمكنك الآن إنشاء TPUEstimator
. هنا ، ستقوم بتبسيط التدفق عن طريق تخطي مدخرات نقاط التفتيش. بعد ذلك ، ستحدد حجم الدُفعة لكل من التدريب والتقييم لـ TPUEstimator
cluster_resolver = tf1.distribute.cluster_resolver.TPUClusterResolver(tpu='')
print("All devices: ", tf1.config.list_logical_devices('TPU'))
All devices: []
tpu_config = tf1.estimator.tpu.TPUConfig(iterations_per_loop=10)
config = tf1.estimator.tpu.RunConfig(
estimator = tf1.estimator.tpu.TPUEstimator(
اتصل بـ TPUEstimator.train
لبدء تدريب النموذج:
estimator.train(_input_fn, steps=1)
ثم اتصل بـ TPUEstimator.evaluate
لتقييم النموذج باستخدام بيانات التقييم:
estimator.evaluate(_eval_input_fn, steps=1)
TensorFlow 2: قيادة نموذج على TPU مع Keras Model.fit و TPUStrategy
في TensorFlow 2 ، للتدريب على عمال TPU ، استخدم tf.distribute.TPUStrategy
مع واجهات برمجة تطبيقات Keras لتعريف النموذج والتدريب / التقييم. (راجع دليل استخدام TPU للحصول على مزيد من الأمثلة على التدريب باستخدام Keras Model.fit
وحلقة تدريب مخصصة (مع وظيفة tf.GradientTape
نظرًا لأنك بحاجة إلى إجراء بعض أعمال التهيئة للاتصال بالمجموعة البعيدة وتهيئة عمال TPU ، فابدأ بإنشاء TPUClusterResolver
لتوفير معلومات الكتلة والاتصال بالمجموعة. (تعرف على المزيد في قسم تهيئة TPU في دليل استخدام TPU .)
cluster_resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu='')
print("All devices: ", tf.config.list_logical_devices('TPU'))
بعد ذلك ، بمجرد إعداد بياناتك ، ستقوم بإنشاء TPUStrategy
، وتحديد نموذج ومقاييس ومحسِّن ضمن نطاق هذه الإستراتيجية.
لتحقيق سرعة تدريب قابلة للمقارنة مع TPUStrategy
، يجب أن تتأكد من اختيار رقم لـ steps_per_execution
في Model.compile
لأنه يحدد عدد الدُفعات التي سيتم تشغيلها أثناء كل استدعاء tf.function
، وهو أمر بالغ الأهمية للأداء. تشبه هذه الوسيطة iterations_per_loop
المستخدمة في TPUEstimator
. إذا كنت تستخدم حلقات تدريب مخصصة ، فيجب عليك التأكد من تشغيل عدة خطوات داخل وظيفة التدريب ذات الوظائف tf.function
. انتقل إلى تحسين الأداء بخطوات متعددة داخل قسم وظيفة tf في دليل استخدام TPU للحصول على مزيد من المعلومات.
يمكن أن تدعم الأشكال الديناميكية المحدودة ، وهي الحالة التي يمكن استنتاج الحد الأعلى من حساب الشكل الديناميكي. لكن الأشكال الديناميكية قد تقدم بعض حمل الأداء مقارنة بالأشكال الثابتة. لذلك ، يوصى عمومًا بجعل أشكال الإدخال ثابتة إن أمكن ، خاصة في التدريب. أحد العمليات الشائعة التي تُرجع شكلاً ديناميكيًا هي tf.data.Dataset.batch(batch_size)
، نظرًا لأن عدد العينات المتبقية في التدفق قد يكون أقل من حجم الدُفعة. لذلك ، عند التدريب على TPU ، يجب عليك استخدام tf.data.Dataset.batch(..., drop_remainder=True)
للحصول على أفضل أداء تدريبي.
dataset = tf.data.Dataset.from_tensor_slices(
(features, labels)).shuffle(10).repeat().batch(
8, drop_remainder=True).prefetch(2)
eval_dataset = tf.data.Dataset.from_tensor_slices(
(eval_features, eval_labels)).batch(1, drop_remainder=True)
strategy = tf.distribute.TPUStrategy(cluster_resolver)
with strategy.scope():
model = tf.keras.models.Sequential([tf.keras.layers.Dense(1)])
optimizer = tf.keras.optimizers.Adagrad(learning_rate=0.05)
model.compile(optimizer, "mse", steps_per_execution=10)
بذلك ، تكون جاهزًا لتدريب النموذج باستخدام مجموعة بيانات التدريب:
model.fit(dataset, epochs=5, steps_per_epoch=10)
أخيرًا ، قم بتقييم النموذج باستخدام مجموعة بيانات التقييم:
model.evaluate(eval_dataset, return_dict=True)
الخطوات التالية
لمعرفة المزيد حول TPUStrategy
في TensorFlow 2 ، ضع في اعتبارك الموارد التالية:
- الدليل: استخدم TPU (تغطي التدريب باستخدام Keras
/ حلقة تدريب مخصصة معtf.distribute.TPUStrategy
، بالإضافة إلى نصائح حول تحسين الأداء باستخدامtf.function
) - الدليل: التدريب الموزع مع TensorFlow
لمعرفة المزيد حول تخصيص التدريب الخاص بك ، يرجى الرجوع إلى:
- الدليل: تخصيص ما يحدث في Model.fit
- الدليل: كتابة حلقة تدريبية من الصفر
