এই টিউটোরিয়ালটি আপনাকে দেখায় যে কীভাবে টেনসরফ্লো সার্ভিং উপাদানগুলিকে স্ট্যান্ডার্ড টেনসরফ্লো মডেল সার্ভার তৈরি করতে ব্যবহার করতে হয় যা গতিশীলভাবে একটি প্রশিক্ষিত টেনসরফ্লো মডেলের নতুন সংস্করণগুলি আবিষ্কার করে এবং পরিবেশন করে। আপনি যদি শুধুমাত্র আপনার মডেলগুলি পরিবেশন করার জন্য স্ট্যান্ডার্ড সার্ভার ব্যবহার করতে চান, TensorFlow Serving বেসিক টিউটোরিয়াল দেখুন।
এই টিউটোরিয়ালটি হস্তলিখিত চিত্র (MNIST ডেটা) শ্রেণীবিভাগের জন্য TensorFlow টিউটোরিয়ালে প্রবর্তিত সহজ Softmax রিগ্রেশন মডেল ব্যবহার করে। আপনি যদি টেনসরফ্লো বা এমএনআইএসটি কী তা না জানেন তবে এমএল বিগিনার্সের জন্য এমএনআইএসটি টিউটোরিয়ালটি দেখুন।
এই টিউটোরিয়ালের কোড দুটি অংশ নিয়ে গঠিত:
একটি পাইথন ফাইল mnist_saved_model.py যা মডেলের একাধিক সংস্করণকে প্রশিক্ষণ ও রপ্তানি করে।
একটি C++ ফাইল main.cc যা হল স্ট্যান্ডার্ড টেনসরফ্লো মডেল সার্ভার যা নতুন এক্সপোর্ট করা মডেল আবিষ্কার করে এবং সেগুলি পরিবেশনের জন্য একটি জিআরপিসি পরিষেবা চালায়।
এই টিউটোরিয়ালটি নিম্নলিখিত কাজের মাধ্যমে ধাপে ধাপে রয়েছে:
- একটি TensorFlow মডেল প্রশিক্ষণ এবং রপ্তানি করুন।
- টেনসরফ্লো সার্ভিং
ServerCoreসাথে মডেল সংস্করণ পরিচালনা করুন। -
SavedModelBundleSourceAdapterConfigব্যবহার করে ব্যাচিং কনফিগার করুন। - TensorFlow সার্ভিং
ServerCoreসাথে অনুরোধ পরিবেশন করুন। - চালান এবং পরিষেবা পরীক্ষা.
শুরু করার আগে, প্রথমে ডকার ইনস্টল করুন
ট্রেন এবং রপ্তানি টেনসরফ্লো মডেল
প্রথমত, আপনি যদি এখনও তা না করে থাকেন, তাহলে আপনার স্থানীয় মেশিনে এই সংগ্রহস্থলটি ক্লোন করুন:
git clone https://github.com/tensorflow/serving.git
cd serving
রপ্তানি ডিরেক্টরি সাফ করুন যদি এটি ইতিমধ্যে বিদ্যমান থাকে:
rm -rf /tmp/models
ট্রেন (100টি পুনরাবৃত্তি সহ) এবং মডেলের প্রথম সংস্করণ রপ্তানি করুন:
tools/run_in_docker.sh python tensorflow_serving/example/mnist_saved_model.py \
--training_iteration=100 --model_version=1 /tmp/mnist
ট্রেন (2000 পুনরাবৃত্তি সহ) এবং মডেলের দ্বিতীয় সংস্করণ রপ্তানি করুন:
tools/run_in_docker.sh python tensorflow_serving/example/mnist_saved_model.py \
--training_iteration=2000 --model_version=2 /tmp/mnist
আপনি mnist_saved_model.py এ দেখতে পাচ্ছেন, টেনসরফ্লো সার্ভিং বেসিক টিউটোরিয়ালের মতোই প্রশিক্ষণ এবং রপ্তানি করা হয়। প্রদর্শনের উদ্দেশ্যে, আপনি ইচ্ছাকৃতভাবে প্রথম রানের জন্য প্রশিক্ষণের পুনরাবৃত্তিগুলি ডায়াল করছেন এবং এটিকে v1 হিসাবে রপ্তানি করছেন, যখন এটিকে সাধারণত দ্বিতীয় রানের জন্য প্রশিক্ষণ দিচ্ছেন এবং একই প্যারেন্ট ডিরেক্টরিতে v2 হিসাবে রপ্তানি করছেন -- যেমনটি আমরা আশা করি পরবর্তীটি অর্জন করবে আরও নিবিড় প্রশিক্ষণের কারণে শ্রেণীবিভাগের সঠিকতা। আপনার /tmp/mnist ডিরেক্টরিতে চালানো প্রতিটি প্রশিক্ষণের জন্য প্রশিক্ষণের ডেটা দেখতে হবে:
$ ls /tmp/mnist
1 2
সার্ভারকোর
এখন কল্পনা করুন মডেলটির v1 এবং v2 রানটাইমে গতিশীলভাবে তৈরি হয়, যেহেতু নতুন অ্যালগরিদম নিয়ে পরীক্ষা করা হচ্ছে, বা মডেলটিকে একটি নতুন ডেটা সেটের সাথে প্রশিক্ষিত করা হচ্ছে। একটি উত্পাদন পরিবেশে, আপনি এমন একটি সার্ভার তৈরি করতে চাইতে পারেন যা ধীরে ধীরে রোলআউটকে সমর্থন করতে পারে, যেখানে v1 পরিবেশন করার সময় v2 আবিষ্কার, লোড, পরীক্ষা, নিরীক্ষণ বা প্রত্যাবর্তন করা যেতে পারে। বিকল্পভাবে, আপনি v2 আনার আগে v1 ছিঁড়ে ফেলতে চাইতে পারেন। TensorFlow সার্ভিং উভয় বিকল্পকে সমর্থন করে -- যখন একটি ট্রানজিশনের সময় প্রাপ্যতা বজায় রাখার জন্য ভাল, অন্যটি সম্পদের ব্যবহার কমানোর জন্য ভাল (যেমন RAM)।
TensorFlow সার্ভিং Manager ঠিক তাই করে। এটি টেনসরফ্লো মডেলগুলির সম্পূর্ণ জীবনচক্র পরিচালনা করে যার মধ্যে লোড করা, পরিবেশন করা এবং সেগুলি আনলোড করার পাশাপাশি সংস্করণ পরিবর্তন করা। এই টিউটোরিয়ালে, আপনি একটি টেনসরফ্লো সার্ভিং ServerCore উপরে আপনার সার্ভার তৈরি করবেন, যা অভ্যন্তরীণভাবে একটি AspiredVersionsManager মোড়ানো হয়।
int main(int argc, char** argv) {
...
ServerCore::Options options;
options.model_server_config = model_server_config;
options.servable_state_monitor_creator = &CreateServableStateMonitor;
options.custom_model_config_loader = &LoadCustomModelConfig;
::google::protobuf::Any source_adapter_config;
SavedModelBundleSourceAdapterConfig
saved_model_bundle_source_adapter_config;
source_adapter_config.PackFrom(saved_model_bundle_source_adapter_config);
(*(*options.platform_config_map.mutable_platform_configs())
[kTensorFlowModelPlatform].mutable_source_adapter_config()) =
source_adapter_config;
std::unique_ptr<ServerCore> core;
TF_CHECK_OK(ServerCore::Create(options, &core));
RunServer(port, std::move(core));
return 0;
}
ServerCore::Create() একটি ServerCore::Options প্যারামিটার নেয়। এখানে কয়েকটি সাধারণভাবে ব্যবহৃত বিকল্প রয়েছে:
-
ModelServerConfigযা লোড করার জন্য মডেল নির্দিষ্ট করে। মডেলগুলি হয়model_config_listএর মাধ্যমে ঘোষণা করা হয়, যা মডেলগুলির একটি স্ট্যাটিক তালিকা ঘোষণা করে, অথবাcustom_model_configএর মাধ্যমে, যা রানটাইমে আপডেট হতে পারে এমন মডেলগুলির একটি তালিকা ঘোষণা করার একটি কাস্টম উপায় সংজ্ঞায়িত করে। -
PlatformConfigMapযা প্ল্যাটফর্মের নাম (যেমনtensorflow) থেকেPlatformConfigএ ম্যাপ করে, যাSourceAdapterতৈরি করতে ব্যবহৃত হয়।SourceAdapterStoragePath(যে পথটি একটি মডেল সংস্করণ আবিষ্কৃত হয়) মডেলLoader(স্টোরেজ পাথ থেকে মডেল সংস্করণ লোড করে এবংManagerস্টেট ট্রানজিশন ইন্টারফেস প্রদান করে) অ্যাডাপ্ট করে। যদিPlatformConfigSavedModelBundleSourceAdapterConfigথাকে, তাহলে একটিSavedModelBundleSourceAdapterতৈরি করা হবে, যা আমরা পরে ব্যাখ্যা করব।
SavedModelBundle হল TensorFlow সার্ভিংয়ের একটি মূল উপাদান। এটি একটি প্রদত্ত পথ থেকে লোড করা একটি TensorFlow মডেল উপস্থাপন করে এবং অনুমান চালানোর জন্য TensorFlow হিসাবে একই Session::Run ইন্টারফেস প্রদান করে। SavedModelBundleSourceAdapter Loader<SavedModelBundle> -এ স্টোরেজ পাথ অ্যাডাপ্ট করে যাতে Manager দ্বারা মডেলের জীবনকাল পরিচালনা করা যায়। অনুগ্রহ করে মনে রাখবেন SavedModelBundle হল অবনমিত SessionBundle এর উত্তরসূরী। ব্যবহারকারীদের SavedModelBundle ব্যবহার করতে উৎসাহিত করা হচ্ছে কারণ SessionBundle জন্য সমর্থন শীঘ্রই সরিয়ে দেওয়া হবে।
এই সবের সাথে, ServerCore অভ্যন্তরীণভাবে নিম্নলিখিতগুলি করে:
- একটি
FileSystemStoragePathSourceইনস্ট্যান্টিয়েট করে যাmodel_config_listএ ঘোষিত মডেল এক্সপোর্ট পাথ নিরীক্ষণ করে। -
model_config_listএ ঘোষিত মডেল প্ল্যাটফর্মের সাথেPlatformConfigMapব্যবহার করে একটিSourceAdapterইনস্ট্যান্ট করে এবংFileSystemStoragePathSourceএর সাথে সংযোগ করে। এইভাবে, যখনই রপ্তানি পথের অধীনে একটি নতুন মডেল সংস্করণ আবিষ্কৃত হয়,SavedModelBundleSourceAdapterএটিকে একটিLoader<SavedModelBundle>-এ মানিয়ে নেয়। -
AspiredVersionsManagerনামকManagerএকটি সুনির্দিষ্ট বাস্তবায়ন ইনস্ট্যান্টিয়েট করে যাSavedModelBundleSourceAdapterদ্বারা তৈরি এই ধরনের সমস্তLoaderদৃষ্টান্ত পরিচালনা করে।AspiredVersionsManagerকে কলগুলি অর্পণ করেServerCoreManagerইন্টারফেস রপ্তানি করে।
যখনই একটি নতুন সংস্করণ উপলব্ধ হয়, এই AspiredVersionsManager নতুন সংস্করণ লোড করে এবং এর ডিফল্ট আচরণের অধীনে পুরানোটিকে আনলোড করে। আপনি যদি কাস্টমাইজ করা শুরু করতে চান, তাহলে এটি অভ্যন্তরীণভাবে যে উপাদানগুলি তৈরি করে এবং কীভাবে সেগুলি কনফিগার করতে হয় তা বুঝতে আপনাকে উত্সাহিত করা হয়।
এটি উল্লেখ করার মতো যে টেনসরফ্লো সার্ভিং স্ক্র্যাচ থেকে ডিজাইন করা হয়েছে খুব নমনীয় এবং এক্সটেনসিবল। ServerCore এবং AspiredVersionsManager এর মতো জেনেরিক মূল উপাদানগুলির সুবিধা নেওয়ার সময় আপনি সিস্টেমের আচরণ কাস্টমাইজ করতে বিভিন্ন প্লাগইন তৈরি করতে পারেন। উদাহরণস্বরূপ, আপনি একটি ডেটা সোর্স প্লাগইন তৈরি করতে পারেন যা স্থানীয় স্টোরেজের পরিবর্তে ক্লাউড স্টোরেজ নিরীক্ষণ করে, অথবা আপনি একটি সংস্করণ নীতি প্লাগইন তৈরি করতে পারেন যা ভিন্ন উপায়ে সংস্করণ পরিবর্তন করে -- আসলে, আপনি এমন একটি কাস্টম মডেল প্লাগইন তৈরি করতে পারেন যা পরিবেশন করে নন-টেনসরফ্লো মডেল। এই বিষয়গুলি এই টিউটোরিয়ালের সুযোগের বাইরে। যাইহোক, আপনি আরও তথ্যের জন্য কাস্টম উত্স এবং কাস্টম পরিবেশনযোগ্য টিউটোরিয়ালগুলি উল্লেখ করতে পারেন।
ব্যাচিং
আরেকটি সাধারণ সার্ভার বৈশিষ্ট্য যা আমরা উৎপাদন পরিবেশে চাই তা হল ব্যাচিং। মেশিন লার্নিং ইনফারেন্স করতে ব্যবহৃত আধুনিক হার্ডওয়্যার এক্সিলারেটর (জিপিইউ, ইত্যাদি) সাধারণত যখন অনুমান অনুরোধগুলি বড় ব্যাচে চালানো হয় তখন সর্বোত্তম গণনা দক্ষতা অর্জন করে।
SavedModelBundleSourceAdapter তৈরি করার সময় সঠিক SessionBundleConfig প্রদান করে ব্যাচিং চালু করা যেতে পারে। এই ক্ষেত্রে আমরা BatchingParameters বেশ ডিফল্ট মান সহ সেট করি। কাস্টম টাইমআউট, ব্যাচ_সাইজ, ইত্যাদি মান সেট করে ব্যাচিং সূক্ষ্ম-টিউন করা যেতে পারে। বিস্তারিত জানার জন্য, অনুগ্রহ করে BatchingParameters দেখুন।
SessionBundleConfig session_bundle_config;
// Batching config
if (enable_batching) {
BatchingParameters* batching_parameters =
session_bundle_config.mutable_batching_parameters();
batching_parameters->mutable_thread_pool_name()->set_value(
"model_server_batch_threads");
}
*saved_model_bundle_source_adapter_config.mutable_legacy_config() =
session_bundle_config;
সম্পূর্ণ ব্যাচে পৌঁছানোর পরে, অনুমান অনুরোধগুলি অভ্যন্তরীণভাবে একটি একক বড় অনুরোধে (টেনসর) একত্রিত করা হয় এবং tensorflow::Session::Run() চালু করা হয় (যেখান থেকে GPU-তে প্রকৃত দক্ষতা লাভ হয়)।
ম্যানেজারের সাথে পরিবেশন করুন
উপরে উল্লিখিত হিসাবে, টেনসরফ্লো সার্ভিং Manager একটি সাধারণ উপাদান হিসাবে ডিজাইন করা হয়েছে যা অবাধ মেশিন লার্নিং সিস্টেম দ্বারা তৈরি মডেলগুলির লোডিং, পরিবেশন, আনলোডিং এবং সংস্করণ পরিবর্তন পরিচালনা করতে পারে। এর APIগুলি নিম্নলিখিত মূল ধারণাগুলিকে ঘিরে তৈরি করা হয়েছে:
পরিবেশনযোগ্য : পরিবেশনযোগ্য যে কোনও অস্বচ্ছ বস্তু যা ক্লায়েন্টের অনুরোধগুলি পরিবেশন করতে ব্যবহার করা যেতে পারে। একটি সার্ভেবলের আকার এবং গ্রানুলারিটি নমনীয়, যেমন একটি একক পরিবেশনযোগ্য একটি লুকআপ টেবিলের একক শার্ড থেকে একটি একক মেশিন-শিক্ষিত মডেল থেকে একাধিক মডেল পর্যন্ত কিছু অন্তর্ভুক্ত করতে পারে। একটি servable যে কোনো ধরনের এবং ইন্টারফেস হতে পারে.
পরিবেশনযোগ্য সংস্করণ : পরিবেশনযোগ্যগুলি সংস্করণযুক্ত এবং টেনসরফ্লো সার্ভিং
Managerএকটি পরিবেশনের এক বা একাধিক সংস্করণ পরিচালনা করতে পারে। সংস্করণকরণ একটি পরিবেশনযোগ্য সংস্করণের একাধিক সংস্করণকে একযোগে লোড করার অনুমতি দেয়, ধীরে ধীরে রোলআউট এবং পরীক্ষা-নিরীক্ষা সমর্থন করে।পরিবেশনযোগ্য স্ট্রীম : একটি পরিবেশনযোগ্য স্ট্রিম হল একটি পরিবেশনযোগ্য সংস্করণের ক্রম, যার সংখ্যা বৃদ্ধি পাচ্ছে।
মডেল : একটি মেশিন-শিক্ষিত মডেল এক বা একাধিক পরিবেশনযোগ্য দ্বারা প্রতিনিধিত্ব করা হয়। servables উদাহরণ হল:
- TensorFlow সেশন বা তাদের চারপাশে মোড়ানো, যেমন
SavedModelBundle। - অন্যান্য ধরণের মেশিন-লার্নড মডেল।
- শব্দভান্ডার সন্ধান টেবিল।
- এম্বেডিং লুকআপ টেবিল।
একটি যৌগিক মডেলকে একাধিক স্বাধীন পরিবেশনযোগ্য হিসাবে বা একক যৌগিক পরিবেশনযোগ্য হিসাবে উপস্থাপন করা যেতে পারে। একটি পরিবেশনযোগ্য একটি মডেলের একটি ভগ্নাংশের সাথেও মিলিত হতে পারে, উদাহরণস্বরূপ অনেকগুলি
Managerদৃষ্টান্ত জুড়ে একটি বড় লুকআপ টেবিলের সাথে।- TensorFlow সেশন বা তাদের চারপাশে মোড়ানো, যেমন
এই টিউটোরিয়ালের প্রেক্ষাপটে এগুলি রাখতে:
TensorFlow মডেলগুলিকে এক ধরনের পরিবেশনযোগ্য -
SavedModelBundleদ্বারা উপস্থাপন করা হয়।SavedModelBundleঅভ্যন্তরীণভাবে একটিtensorflow:Sessionকোন গ্রাফটি লোড করা হয় এবং কীভাবে অনুমানের জন্য এটি চালাতে হয় সে সম্পর্কে কিছু মেটাডেটা যুক্ত করা হয়।একটি ফাইল-সিস্টেম ডিরেক্টরি রয়েছে যেখানে টেনসরফ্লো এক্সপোর্টের একটি স্ট্রীম রয়েছে, প্রতিটির নিজস্ব সাবডিরেক্টরিতে রয়েছে যার নাম একটি সংস্করণ নম্বর। বাইরের ডিরেক্টরিটিকে টেনসরফ্লো মডেলের জন্য পরিবেশনযোগ্য স্ট্রিমের ক্রমিক উপস্থাপনা হিসাবে বিবেচনা করা যেতে পারে। প্রতিটি রপ্তানি লোড করা যেতে পারে এমন একটি servables এর সাথে মিলে যায়।
AspiredVersionsManagerরপ্তানি স্ট্রীম নিরীক্ষণ করে, এবং সমস্তSavedModelBundleservables এর জীবনচক্র গতিশীলভাবে পরিচালনা করে।
TensorflowPredictImpl::Predict তারপর শুধু:
- ম্যানেজারের কাছ থেকে
SavedModelBundleঅনুরোধ (সার্ভারকোরের মাধ্যমে)। -
PredictRequestএ যৌক্তিক টেনসরের নামগুলিকে বাস্তব টেনসরের নামের সাথে মানচিত্র করতে এবং টেনসরের সাথে মানগুলি আবদ্ধ করতেgeneric signaturesব্যবহার করে। - অনুমান চালায়।
পরীক্ষা করুন এবং সার্ভার চালান
নিরীক্ষণ করা ফোল্ডারে এক্সপোর্টের প্রথম সংস্করণটি অনুলিপি করুন:
mkdir /tmp/monitored
cp -r /tmp/mnist/1 /tmp/monitored
তারপর সার্ভার শুরু করুন:
docker run -p 8500:8500 \
--mount type=bind,source=/tmp/monitored,target=/models/mnist \
-t --entrypoint=tensorflow_model_server tensorflow/serving --enable_batching \
--port=8500 --model_name=mnist --model_base_path=/models/mnist &
সার্ভারটি প্রতি এক সেকেন্ডে লগ বার্তা নির্গত করবে যা বলে "সার্ভারযোগ্যের জন্য উচ্চাকাঙ্ক্ষী সংস্করণ ...", যার অর্থ এটি রপ্তানি খুঁজে পেয়েছে এবং এর অব্যাহত অস্তিত্ব ট্র্যাক করছে৷
--concurrency=10 দিয়ে ক্লায়েন্ট চালাই। এটি সার্ভারে একযোগে অনুরোধ পাঠাবে এবং এইভাবে আপনার ব্যাচিং লজিককে ট্রিগার করবে।
tools/run_in_docker.sh python tensorflow_serving/example/mnist_client.py \
--num_tests=1000 --server=127.0.0.1:8500 --concurrency=10
যার ফলে আউটপুট দেখায়:
...
Inference error rate: 13.1%
তারপরে আমরা রপ্তানির দ্বিতীয় সংস্করণটি পর্যবেক্ষণ করা ফোল্ডারে অনুলিপি করি এবং পরীক্ষাটি পুনরায় চালাই:
cp -r /tmp/mnist/2 /tmp/monitored
tools/run_in_docker.sh python tensorflow_serving/example/mnist_client.py \
--num_tests=1000 --server=127.0.0.1:8500 --concurrency=10
যার ফলে আউটপুট দেখায়:
...
Inference error rate: 9.5%
এটি নিশ্চিত করে যে আপনার সার্ভার স্বয়ংক্রিয়ভাবে নতুন সংস্করণ আবিষ্কার করে এবং পরিবেশনের জন্য এটি ব্যবহার করে!