ভূমিকা
TensorFlow রানটাইমে এমন কিছু উপাদান রয়েছে যা অলসভাবে শুরু করা হয়, যা লোড হওয়ার পরে একটি মডেলে পাঠানো প্রথম অনুরোধ/গুলির জন্য উচ্চ বিলম্বিত হতে পারে। এই বিলম্বতা একটি একক অনুমান অনুরোধের চেয়ে অনেক বেশি মাত্রার অর্ডার হতে পারে।
অনুরোধের বিলম্বে অলস প্রারম্ভিকতার প্রভাব কমাতে, সংরক্ষিত মডেলের সাথে অনুমান অনুরোধের একটি নমুনা সেট প্রদান করে মডেল লোডের সময় সাব-সিস্টেম এবং উপাদানগুলির প্রারম্ভিকতা ট্রিগার করা সম্ভব। এই প্রক্রিয়াটি মডেলটিকে "ওয়ার্মিং আপ" হিসাবে পরিচিত।
ব্যবহার
SavedModel Warmup Regress, Classify, MultiInference এবং Predict-এর জন্য সমর্থিত। লোডের সময় মডেলের ওয়ার্মআপ ট্রিগার করতে, SavedModel ডিরেক্টরির assets.extra সাবফোল্ডারের অধীনে একটি ওয়ার্মআপ ডেটা ফাইল সংযুক্ত করুন।
সঠিকভাবে কাজ করার জন্য মডেল ওয়ার্মআপের প্রয়োজনীয়তা:
- ওয়ার্মআপ ফাইলের নাম: 'tf_serving_warmup_requests'
- ফাইলের অবস্থান: assets.extra/
- ফাইল ফরম্যাট: একটি PredictionLog হিসাবে প্রতিটি রেকর্ডের সাথে TFRrecord ।
- ওয়ার্মআপ রেকর্ডের সংখ্যা <= 1000।
- ওয়ার্মআপ ডেটা অবশ্যই পরিবেশন করার সময় ব্যবহৃত অনুমান অনুরোধের প্রতিনিধি হতে হবে।
ওয়ার্ম-আপ ডেটা জেনারেশন
ওয়ার্মআপ ডেটা দুটি উপায়ে যোগ করা যেতে পারে:
- আপনার রপ্তানি করা সংরক্ষিত মডেলে ওয়ার্মআপের অনুরোধগুলি সরাসরি পপুলেট করে৷ নমুনা অনুমান অনুরোধের একটি তালিকা পড়ার একটি স্ক্রিপ্ট তৈরি করে, প্রতিটি অনুরোধকে PredictionLog- এ রূপান্তর করে (যদি এটি মূলত একটি ভিন্ন ফর্ম্যাটে হয়) এবং TFRecordWriter ব্যবহার করে
YourSavedModel/assets.extra/tf_serving_warmup_requestsএ PredictionLog এন্ট্রি লেখার মাধ্যমে এটি করা যেতে পারে। - ওয়ার্মআপ সহ একটি সংরক্ষিত মডেল রপ্তানি করতে TFX ইনফ্রা ভ্যালিডেটর বিকল্প ব্যবহার করে৷ এই বিকল্পের মাধ্যমে TFX Infa যাচাইকারী
YourSavedModel/assets.extra/tf_serving_warmup_requestsপূরণ করবে RequestSpec এর মাধ্যমে প্রদত্ত বৈধতা অনুরোধের উপর ভিত্তি করে।