StatisticsGen TFX পাইপলাইন উপাদান

StatisticsGen TFX পাইপলাইন উপাদান প্রশিক্ষণ এবং পরিবেশন ডেটা উভয়ের উপর বৈশিষ্ট্য পরিসংখ্যান তৈরি করে, যা অন্যান্য পাইপলাইন উপাদান দ্বারা ব্যবহার করা যেতে পারে। StatisticsGen বড় ডেটাসেটে স্কেল করার জন্য Beam ব্যবহার করে।

  • ব্যবহার করে: একটি ExampleGen পাইপলাইন উপাদান দ্বারা তৈরি ডেটাসেট।
  • নির্গত: ডেটাসেট পরিসংখ্যান।

StatisticsGen এবং TensorFlow ডেটা যাচাইকরণ

StatisticsGen আপনার ডেটাসেট থেকে পরিসংখ্যান তৈরি করার জন্য TensorFlow ডেটা যাচাইকরণের ব্যাপক ব্যবহার করে।

StatsGen উপাদান ব্যবহার করে

একটি StatisticsGen পাইপলাইন উপাদান সাধারণত স্থাপন করা খুব সহজ এবং সামান্য কাস্টমাইজেশন প্রয়োজন। সাধারণ কোড এই মত দেখায়:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

একটি স্কিমার সাথে StatsGen উপাদান ব্যবহার করা

একটি পাইপলাইনের প্রথম রানের জন্য, StatisticsGen-এর আউটপুট একটি স্কিমা অনুমান করতে ব্যবহার করা হবে। যাইহোক, পরবর্তী রানে আপনার কাছে একটি ম্যানুয়ালি কিউরেটেড স্কিমা থাকতে পারে যাতে আপনার ডেটা সেট সম্পর্কে অতিরিক্ত তথ্য থাকে। StatisticsGen-এ এই স্কিমা প্রদান করে, TFDV আপনার ডেটা সেটের ঘোষিত বৈশিষ্ট্যের উপর ভিত্তি করে আরও দরকারী পরিসংখ্যান প্রদান করতে পারে।

এই সেটিংয়ে, আপনি StatisticsGen-কে একটি কিউরেটেড স্কিমা সহ একটি ImporterNode দ্বারা আমদানি করা হয়েছে:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

একটি কিউরেটেড স্কিমা তৈরি করা

TFX-এ Schema হল টেনসরফ্লো মেটাডেটা Schema প্রোটোর একটি উদাহরণ। এটি স্ক্র্যাচ থেকে পাঠ্য বিন্যাসে রচনা করা যেতে পারে। যাইহোক, SchemaGen দ্বারা উত্পাদিত অনুমানকৃত স্কিমা একটি সূচনা পয়েন্ট হিসাবে ব্যবহার করা সহজ। একবার SchemaGen উপাদানটি কার্যকর হয়ে গেলে, স্কিমাটি নিম্নলিখিত পথে পাইপলাইন রুটের নীচে অবস্থিত হবে:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

যেখানে <artifact_id> MLMD-তে স্কিমার এই সংস্করণের জন্য একটি অনন্য ID উপস্থাপন করে। এই স্কিমা প্রোটোটি তখন ডেটাসেট সম্পর্কে তথ্য যোগাযোগের জন্য পরিবর্তন করা যেতে পারে যা নির্ভরযোগ্যভাবে অনুমান করা যায় না, যা StatisticsGen এর আউটপুটকে আরও বেশি উপযোগী করে তুলবে এবং ExampleValidator কম্পোনেন্টে সম্পাদিত বৈধতা আরও কঠোর হবে।

StatisticsGen API রেফারেন্সে আরও বিশদ পাওয়া যায়।