TFX আপনার মেশিন লার্নিং (ML) ওয়ার্কফ্লোকে পাইপলাইন হিসাবে সাজানো সহজ করে তোলে, যাতে:
- আপনার ML প্রক্রিয়া স্বয়ংক্রিয় করুন, যা আপনাকে নিয়মিতভাবে পুনরায় প্রশিক্ষণ, মূল্যায়ন এবং আপনার মডেল স্থাপন করতে দেয়।
- এমএল পাইপলাইন তৈরি করুন যাতে মডেলের পারফরম্যান্সের গভীর বিশ্লেষণ এবং কর্মক্ষমতা এবং নির্ভরযোগ্যতা নিশ্চিত করতে নতুন প্রশিক্ষিত মডেলের বৈধতা অন্তর্ভুক্ত থাকে।
- অসঙ্গতিগুলির জন্য প্রশিক্ষণের ডেটা নিরীক্ষণ করুন এবং প্রশিক্ষণ প্রদানকারী তির্যক দূর করুন
- হাইপারপ্যারামিটারের বিভিন্ন সেট সহ একটি পাইপলাইন চালিয়ে পরীক্ষা-নিরীক্ষার বেগ বাড়ান।
একটি সাধারণ পাইপলাইন উন্নয়ন প্রক্রিয়া একটি স্থানীয় মেশিনে শুরু হয়, ডেটা বিশ্লেষণ এবং উপাদান সেটআপ সহ, উৎপাদনে মোতায়েন করার আগে। এই নির্দেশিকা স্থানীয়ভাবে একটি পাইপলাইন নির্মাণের দুটি উপায় বর্ণনা করে।
- আপনার ML কর্মপ্রবাহের চাহিদা পূরণ করতে একটি TFX পাইপলাইন টেমপ্লেট কাস্টমাইজ করুন। TFX পাইপলাইন টেমপ্লেটগুলি হল প্রি-বিল্ট ওয়ার্কফ্লো যা TFX স্ট্যান্ডার্ড উপাদানগুলি ব্যবহার করে সেরা অনুশীলনগুলি প্রদর্শন করে।
- TFX ব্যবহার করে একটি পাইপলাইন তৈরি করুন। এই ব্যবহারের ক্ষেত্রে, আপনি একটি টেমপ্লেট থেকে শুরু না করে একটি পাইপলাইন সংজ্ঞায়িত করুন৷
আপনি যখন আপনার পাইপলাইনটি বিকাশ করছেন, আপনি এটি LocalDagRunner
দিয়ে চালাতে পারেন। তারপরে, একবার পাইপলাইনের উপাদানগুলি ভালভাবে সংজ্ঞায়িত এবং পরীক্ষা করা হয়ে গেলে, আপনি একটি প্রোডাকশন-গ্রেড অর্কেস্ট্রেটর যেমন কুবেফ্লো বা এয়ারফ্লো ব্যবহার করবেন।
আপনি শুরু করার আগে
TFX হল একটি পাইথন প্যাকেজ, তাই আপনাকে একটি পাইথন ডেভেলপমেন্ট এনভায়রনমেন্ট সেট আপ করতে হবে, যেমন একটি ভার্চুয়াল এনভায়রনমেন্ট বা একটি ডকার কন্টেইনার। তারপর:
pip install tfx
আপনি যদি TFX পাইপলাইনে নতুন হন, তাহলে চালিয়ে যাওয়ার আগে TFX পাইপলাইনের মূল ধারণা সম্পর্কে আরও জানুন ।
একটি টেমপ্লেট ব্যবহার করে একটি পাইপলাইন তৈরি করুন
TFX পাইপলাইন টেমপ্লেটগুলি পাইপলাইন ডেভেলপমেন্টের সাথে শুরু করা সহজ করে তোলে একটি পূর্বনির্মাণ পাইপলাইন সংজ্ঞা প্রদান করে যা আপনি আপনার ব্যবহারের ক্ষেত্রে কাস্টমাইজ করতে পারেন।
নিম্নলিখিত বিভাগগুলি বর্ণনা করে যে কীভাবে একটি টেমপ্লেটের একটি অনুলিপি তৈরি করা যায় এবং আপনার প্রয়োজন মেটাতে এটি কাস্টমাইজ করা যায়।
পাইপলাইন টেমপ্লেটের একটি অনুলিপি তৈরি করুন
উপলব্ধ TFX পাইপলাইন টেমপ্লেটের তালিকা দেখুন:
tfx template list
তালিকা থেকে একটি টেমপ্লেট নির্বাচন করুন
tfx template copy --model=template --pipeline_name=pipeline-name \ --destination_path=destination-path
নিম্নলিখিতগুলি প্রতিস্থাপন করুন:
- template : আপনি যে টেমপ্লেটটি কপি করতে চান তার নাম।
- pipeline-name : তৈরি করা পাইপলাইনের নাম।
- destination-path : টেমপ্লেটটি কপি করার পথ।
tfx template copy
কমান্ড সম্পর্কে আরও জানুন।আপনার নির্দিষ্ট করা পথে পাইপলাইন টেমপ্লেটের একটি অনুলিপি তৈরি করা হয়েছে।
পাইপলাইন টেমপ্লেট অন্বেষণ করুন
এই বিভাগটি একটি টেমপ্লেট দ্বারা তৈরি ভারাগুলির একটি ওভারভিউ প্রদান করে।
আপনার পাইপলাইনের রুট ডিরেক্টরিতে কপি করা ডিরেক্টরি এবং ফাইলগুলি অন্বেষণ করুন৷
- সঙ্গে একটি পাইপলাইন ডিরেক্টরি
-
pipeline.py
- পাইপলাইন সংজ্ঞায়িত করে এবং কোন উপাদান ব্যবহার করা হচ্ছে তা তালিকাভুক্ত করে -
configs.py
- কনফিগারেশনের বিশদ ধরে রাখুন যেমন ডেটা কোথা থেকে আসছে বা কোন অর্কেস্ট্রেটর ব্যবহার করা হচ্ছে
-
- একটি ডেটা ডিরেক্টরি
- এটিতে সাধারণত একটি
data.csv
ফাইল থাকে, যাExampleGen
এর জন্য ডিফল্ট উৎস। আপনিconfigs.py
এ ডেটা উৎস পরিবর্তন করতে পারেন।
- এটিতে সাধারণত একটি
প্রিপ্রসেসিং কোড এবং মডেল বাস্তবায়ন সহ একটি মডেল ডিরেক্টরি
টেমপ্লেটটি স্থানীয় পরিবেশ এবং কুবেফ্লো-এর জন্য DAG রানারদের অনুলিপি করে।
কিছু টেমপ্লেটে পাইথন নোটবুকও রয়েছে যাতে আপনি মেশিন লার্নিং মেটাডেটা দিয়ে আপনার ডেটা এবং শিল্পকর্মগুলি অন্বেষণ করতে পারেন।
- সঙ্গে একটি পাইপলাইন ডিরেক্টরি
আপনার পাইপলাইন ডিরেক্টরিতে নিম্নলিখিত কমান্ডগুলি চালান:
tfx pipeline create --pipeline_path local_runner.py
tfx run create --pipeline_name pipeline_name
কমান্ডটি
LocalDagRunner
ব্যবহার করে একটি পাইপলাইন তৈরি করে, যা আপনার পাইপলাইনে নিম্নলিখিত ডিরেক্টরি যোগ করে:- একটি tfx_metadata ডিরেক্টরি যেখানে স্থানীয়ভাবে ব্যবহৃত ML মেটাডেটা স্টোর রয়েছে।
- একটি tfx_pipeline_output ডিরেক্টরি যা পাইপলাইনের ফাইল আউটপুট ধারণ করে।
আপনার পাইপলাইনের
pipeline/configs.py
ফাইলটি খুলুন এবং বিষয়বস্তু পর্যালোচনা করুন। এই স্ক্রিপ্টটি পাইপলাইন এবং উপাদান ফাংশন দ্বারা ব্যবহৃত কনফিগারেশন বিকল্পগুলিকে সংজ্ঞায়িত করে। এখানে আপনি ডেটাসোর্সের অবস্থান বা একটি দৌড়ে প্রশিক্ষণের ধাপের সংখ্যার মতো জিনিসগুলি নির্দিষ্ট করবেন।আপনার পাইপলাইনের
pipeline/pipeline.py
ফাইলটি খুলুন এবং বিষয়বস্তু পর্যালোচনা করুন৷ এই স্ক্রিপ্টটি TFX পাইপলাইন তৈরি করে। প্রাথমিকভাবে, পাইপলাইনে শুধুমাত্র একটিExampleGen
উপাদান থাকে।- পাইপলাইনে আরও ধাপ যোগ করতে
pipeline.py
এ TODO মন্তব্যে নির্দেশাবলী অনুসরণ করুন।
- পাইপলাইনে আরও ধাপ যোগ করতে
local_runner.py
ফাইল খুলুন এবং বিষয়বস্তু পর্যালোচনা করুন। এই স্ক্রিপ্টটি একটি পাইপলাইন রান তৈরি করে এবং রানের প্যারামিটারগুলি নির্দিষ্ট করে, যেমনdata_path
এবংpreprocessing_fn
।আপনি টেমপ্লেট দ্বারা তৈরি স্ক্যাফোল্ডিং পর্যালোচনা করেছেন এবং
LocalDagRunner
ব্যবহার করে একটি পাইপলাইন তৈরি করেছেন। এরপরে, আপনার প্রয়োজনীয়তার সাথে মানানসই টেমপ্লেটটি কাস্টমাইজ করুন।
আপনার পাইপলাইন কাস্টমাইজ করুন
এই বিভাগটি আপনার টেমপ্লেট কাস্টমাইজ করা শুরু করার একটি ওভারভিউ প্রদান করে।
আপনার পাইপলাইন ডিজাইন করুন। একটি টেমপ্লেট যে ভারা প্রদান করে তা আপনাকে TFX স্ট্যান্ডার্ড উপাদানগুলি ব্যবহার করে ট্যাবুলার ডেটার জন্য একটি পাইপলাইন বাস্তবায়নে সহায়তা করে। আপনি যদি একটি বিদ্যমান ML ওয়ার্কফ্লোকে একটি পাইপলাইনে নিয়ে যাচ্ছেন, তাহলে TFX স্ট্যান্ডার্ড উপাদানগুলির সম্পূর্ণ ব্যবহার করার জন্য আপনাকে আপনার কোড সংশোধন করতে হতে পারে। আপনাকে এমন কাস্টম উপাদানগুলিও তৈরি করতে হতে পারে যা বৈশিষ্ট্যগুলি প্রয়োগ করে যা আপনার কর্মপ্রবাহের জন্য অনন্য বা যেগুলি এখনও TFX স্ট্যান্ডার্ড উপাদান দ্বারা সমর্থিত নয়৷
একবার আপনি আপনার পাইপলাইন ডিজাইন করার পরে, নিম্নলিখিত প্রক্রিয়াটি ব্যবহার করে পুনরাবৃত্তভাবে পাইপলাইনটি কাস্টমাইজ করুন। আপনার পাইপলাইনে ডেটা ইনজেস্ট করে এমন উপাদান থেকে শুরু করুন, যা সাধারণত
ExampleGen
উপাদান।আপনার ব্যবহারের ক্ষেত্রে ফিট করার জন্য পাইপলাইন বা একটি উপাদান কাস্টমাইজ করুন। এই কাস্টমাইজেশনগুলির মধ্যে পরিবর্তনগুলি অন্তর্ভুক্ত থাকতে পারে যেমন:
- পাইপলাইনের পরামিতি পরিবর্তন করা হচ্ছে।
- পাইপলাইনে উপাদান যোগ করা বা অপসারণ করা।
- তথ্য ইনপুট উৎস প্রতিস্থাপন. এই ডেটা সোর্সটি হয় একটি ফাইল হতে পারে বা BigQuery-এর মতো পরিষেবাগুলিতে প্রশ্ন করতে পারে।
- পাইপলাইনে একটি উপাদানের কনফিগারেশন পরিবর্তন করা হচ্ছে।
- একটি উপাদান এর কাস্টমাইজেশন ফাংশন পরিবর্তন.
স্থানীয়ভাবে স্থানীয়ভাবে কম্পোনেন্ট চালান
local_runner.py
স্ক্রিপ্ট, অথবা অন্য উপযুক্ত DAG রানার যদি আপনি একটি ভিন্ন অর্কেস্ট্রেটর ব্যবহার করেন। স্ক্রিপ্ট ব্যর্থ হলে, ব্যর্থতা ডিবাগ করুন এবং স্ক্রিপ্ট চালানোর জন্য পুনরায় চেষ্টা করুন।একবার এই কাস্টমাইজেশন কাজ করে, পরবর্তী কাস্টমাইজেশনে যান।
পুনরাবৃত্তিমূলকভাবে কাজ করে, আপনি আপনার প্রয়োজন মেটাতে টেমপ্লেট ওয়ার্কফ্লোতে প্রতিটি ধাপ কাস্টমাইজ করতে পারেন।
একটি কাস্টম পাইপলাইন তৈরি করুন
একটি টেমপ্লেট ব্যবহার না করে একটি কাস্টম পাইপলাইন নির্মাণ সম্পর্কে আরও জানতে নিম্নলিখিত নির্দেশাবলী ব্যবহার করুন৷
আপনার পাইপলাইন ডিজাইন করুন। TFX স্ট্যান্ডার্ড উপাদানগুলি আপনাকে একটি সম্পূর্ণ এমএল ওয়ার্কফ্লো বাস্তবায়নে সহায়তা করার জন্য প্রমাণিত কার্যকারিতা প্রদান করে। আপনি যদি একটি বিদ্যমান এমএল ওয়ার্কফ্লোকে একটি পাইপলাইনে স্থানান্তরিত করেন, তাহলে TFX স্ট্যান্ডার্ড উপাদানগুলির সম্পূর্ণ ব্যবহার করার জন্য আপনাকে আপনার কোড সংশোধন করতে হতে পারে। আপনাকে কাস্টম উপাদানগুলি তৈরি করতে হতে পারে যা ডেটা বৃদ্ধির মতো বৈশিষ্ট্যগুলি প্রয়োগ করে।
- স্ট্যান্ডার্ড TFX উপাদান সম্পর্কে আরও জানুন।
- কাস্টম উপাদান সম্পর্কে আরও জানুন।
নিম্নলিখিত উদাহরণ ব্যবহার করে আপনার পাইপলাইন সংজ্ঞায়িত করতে একটি স্ক্রিপ্ট ফাইল তৈরি করুন। এই নির্দেশিকাটি এই ফাইলটিকে
my_pipeline.py
হিসাবে উল্লেখ করে।import os from typing import Optional, Text, List from absl import logging from ml_metadata.proto import metadata_store_pb2 import tfx.v1 as tfx PIPELINE_NAME = 'my_pipeline' PIPELINE_ROOT = os.path.join('.', 'my_pipeline_output') METADATA_PATH = os.path.join('.', 'tfx_metadata', PIPELINE_NAME, 'metadata.db') ENABLE_CACHE = True def create_pipeline( pipeline_name: Text, pipeline_root:Text, enable_cache: bool, metadata_connection_config: Optional[ metadata_store_pb2.ConnectionConfig] = None, beam_pipeline_args: Optional[List[Text]] = None ): components = [] return tfx.dsl.Pipeline( pipeline_name=pipeline_name, pipeline_root=pipeline_root, components=components, enable_cache=enable_cache, metadata_connection_config=metadata_connection_config, beam_pipeline_args=beam_pipeline_args, <!-- needed? --> ) def run_pipeline(): my_pipeline = create_pipeline( pipeline_name=PIPELINE_NAME, pipeline_root=PIPELINE_ROOT, enable_cache=ENABLE_CACHE, metadata_connection_config=tfx.orchestration.metadata.sqlite_metadata_connection_config(METADATA_PATH) ) tfx.orchestration.LocalDagRunner().run(my_pipeline) if __name__ == '__main__': logging.set_verbosity(logging.INFO) run_pipeline()
আগামী ধাপে, আপনি
create_pipeline
এ আপনার পাইপলাইন সংজ্ঞায়িত করুন এবং স্থানীয় রানার ব্যবহার করে স্থানীয়ভাবে আপনার পাইপলাইন চালান।নিম্নলিখিত প্রক্রিয়াটি ব্যবহার করে পুনরাবৃত্তিমূলকভাবে আপনার পাইপলাইন তৈরি করুন।
আপনার ব্যবহারের ক্ষেত্রে ফিট করার জন্য পাইপলাইন বা একটি উপাদান কাস্টমাইজ করুন। এই কাস্টমাইজেশনগুলির মধ্যে পরিবর্তনগুলি অন্তর্ভুক্ত থাকতে পারে যেমন:
- পাইপলাইনের পরামিতি পরিবর্তন করা হচ্ছে।
- পাইপলাইনে উপাদান যোগ করা বা অপসারণ করা।
- একটি ডেটা ইনপুট ফাইল প্রতিস্থাপন.
- পাইপলাইনে একটি উপাদানের কনফিগারেশন পরিবর্তন করা হচ্ছে।
- একটি উপাদান এর কাস্টমাইজেশন ফাংশন পরিবর্তন.
স্থানীয় রানার ব্যবহার করে বা সরাসরি স্ক্রিপ্ট চালিয়ে স্থানীয়ভাবে উপাদানটি চালান। স্ক্রিপ্ট ব্যর্থ হলে, ব্যর্থতা ডিবাগ করুন এবং স্ক্রিপ্ট চালানোর জন্য পুনরায় চেষ্টা করুন।
একবার এই কাস্টমাইজেশন কাজ করে, পরবর্তী কাস্টমাইজেশনে যান।
আপনার পাইপলাইনের ওয়ার্কফ্লোতে প্রথম নোড থেকে শুরু করুন, সাধারণত প্রথম নোড আপনার পাইপলাইনে ডেটা প্রবেশ করে।
আপনার পাইপলাইনে আপনার ওয়ার্কফ্লোতে প্রথম নোড যোগ করুন। এই উদাহরণে, পাইপলাইনটি
./data
এ একটি ডিরেক্টরি থেকে একটি CSV লোড করতেExampleGen
স্ট্যান্ডার্ড উপাদান ব্যবহার করে।from tfx.components import CsvExampleGen DATA_PATH = os.path.join('.', 'data') def create_pipeline( pipeline_name: Text, pipeline_root:Text, data_path: Text, enable_cache: bool, metadata_connection_config: Optional[ metadata_store_pb2.ConnectionConfig] = None, beam_pipeline_args: Optional[List[Text]] = None ): components = [] example_gen = tfx.components.CsvExampleGen(input_base=data_path) components.append(example_gen) return tfx.dsl.Pipeline( pipeline_name=pipeline_name, pipeline_root=pipeline_root, components=components, enable_cache=enable_cache, metadata_connection_config=metadata_connection_config, beam_pipeline_args=beam_pipeline_args, <!-- needed? --> ) def run_pipeline(): my_pipeline = create_pipeline( pipeline_name=PIPELINE_NAME, pipeline_root=PIPELINE_ROOT, data_path=DATA_PATH, enable_cache=ENABLE_CACHE, metadata_connection_config=tfx.orchestration.metadata.sqlite_metadata_connection_config(METADATA_PATH) ) tfx.orchestration.LocalDagRunner().run(my_pipeline)
CsvExampleGen
নির্দিষ্ট ডেটা পাথে CSV-এর ডেটা ব্যবহার করে ধারাবাহিক উদাহরণ রেকর্ড তৈরি করে। ডেটা রুটের সাথেCsvExampleGen
কম্পোনেন্টেরinput_base
প্যারামিটার সেট করে।my_pipeline.py
হিসাবে একই ডিরেক্টরিতে একটিdata
ডিরেক্টরি তৈরি করুন।data
ডিরেক্টরিতে একটি ছোট CSV ফাইল যোগ করুন।আপনার
my_pipeline.py
স্ক্রিপ্ট চালানোর জন্য নিম্নলিখিত কমান্ডটি ব্যবহার করুন।python my_pipeline.py
ফলাফল নিম্নলিখিত মত কিছু হওয়া উচিত:
INFO:absl:Component CsvExampleGen depends on []. INFO:absl:Component CsvExampleGen is scheduled. INFO:absl:Component CsvExampleGen is running. INFO:absl:Running driver for CsvExampleGen INFO:absl:MetadataStore with DB connection initialized INFO:absl:Running executor for CsvExampleGen INFO:absl:Generating examples. INFO:absl:Using 1 process(es) for Local pipeline execution. INFO:absl:Processing input csv data ./data/* to TFExample. WARNING:root:Couldn't find python-snappy so the implementation of _TFRecordUtil._masked_crc32c is not as fast as it could be. INFO:absl:Examples generated. INFO:absl:Running publisher for CsvExampleGen INFO:absl:MetadataStore with DB connection initialized INFO:absl:Component CsvExampleGen is finished.
আপনার পাইপলাইনে পুনরাবৃত্তভাবে উপাদান যোগ করা চালিয়ে যান।