StatisticsGen TFX পাইপলাইন উপাদান

StatisticsGen TFX পাইপলাইন উপাদান প্রশিক্ষণ এবং পরিবেশন ডেটা উভয়ের উপর বৈশিষ্ট্যের পরিসংখ্যান তৈরি করে, যা অন্যান্য পাইপলাইন উপাদান দ্বারা ব্যবহার করা যেতে পারে। StatisticsGen বড় ডেটাসেটে স্কেল করার জন্য Beam ব্যবহার করে।

  • ব্যবহার করে: একটি ExampleGen পাইপলাইন উপাদান দ্বারা তৈরি ডেটাসেট।
  • নির্গত: ডেটাসেট পরিসংখ্যান।

StatisticsGen এবং TensorFlow ডেটা যাচাইকরণ

StatisticsGen ব্যাপক ব্যবহার TensorFlow ডেটা ভ্যালিডেশন আপনার ডেটা সেটটি থেকে পরিসংখ্যান জেনারেট করার জন্য।

StatsGen উপাদান ব্যবহার করে

একটি StatisticsGen পাইপলাইন উপাদান সাধারণত স্থাপন করা খুব সহজ এবং সামান্য কাস্টমাইজেশন প্রয়োজন। সাধারণ কোড এই মত দেখায়:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

একটি স্কিমার সাথে StatsGen উপাদান ব্যবহার করা

একটি পাইপলাইনের প্রথম রানের জন্য, StatisticsGen-এর আউটপুট একটি স্কিমা অনুমান করতে ব্যবহার করা হবে। যাইহোক, পরবর্তী রানে আপনার কাছে একটি ম্যানুয়ালি কিউরেটেড স্কিমা থাকতে পারে যাতে আপনার ডেটা সেট সম্পর্কে অতিরিক্ত তথ্য থাকে। StatisticsGen-এ এই স্কিমা প্রদান করে, TFDV আপনার ডেটা সেটের ঘোষিত বৈশিষ্ট্যের উপর ভিত্তি করে আরও দরকারী পরিসংখ্যান প্রদান করতে পারে।

এই সেটিং-এ, আপনি StatisticsGen-কে একটি কিউরেটেড স্কিমা সহ একটি ImporterNode দ্বারা আমদানি করা হয়েছে:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

একটি কিউরেটেড স্কিমা তৈরি করা

Schema TFX মধ্যে TensorFlow মেটাডেটার একটি দৃষ্টান্ত হল Schema প্রোটো । এই গঠিত হতে পারে টেক্সট বিন্যাসে গোড়া থেকে। যাইহোক, এটা দ্বারা উত্পাদিত অনুমিত স্কিমা ব্যবহার করা অনেক সহজ SchemaGen একটি আদ্যস্থল হিসাবে। একবার SchemaGen উপাদান মৃত্যুদন্ড কার্যকর করেনি, স্কিমা নিম্নলিখিত পথে পাইপলাইন রুট অধীনে অবস্থিত হবে:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

কোথায় <artifact_id> MLMD এ স্কিমা এর এই সংস্করণের জন্য একটি অনন্য আইডি প্রতিনিধিত্ব করে। এই স্কিমা প্রোটো তারপর ডেটা সেটটি যা নির্ভরযোগ্যভাবে অনুমিত করা যাবে না, যা আউটপুট করতে হবে সম্পর্কে তথ্য যোগাযোগ করতে পরিবর্তন করা যাবে StatisticsGen আপনার জন্য দরকারী এবং বৈধতা সঞ্চালিত ExampleValidator উপাদান আরো কঠোর।

আরো বিস্তারিত পাওয়া যায় StatisticsGen এপিআই রেফারেন্স