स्टैटिस्टिक्सजेन टीएफएक्स पाइपलाइन घटक

स्टैटिस्टिक्सजेन टीएफएक्स पाइपलाइन घटक प्रशिक्षण और सेवा डेटा दोनों पर फीचर आंकड़े उत्पन्न करता है, जिसका उपयोग अन्य पाइपलाइन घटकों द्वारा किया जा सकता है। स्टैटिस्टिक्सजेन बड़े डेटासेट को स्केल करने के लिए बीम का उपयोग करता है।

  • उपभोग करता है: एक exampleGen पाइपलाइन घटक द्वारा बनाए गए डेटासेट।
  • उत्सर्जन: डेटासेट आँकड़े।

सांख्यिकीजेन और TensorFlow डेटा सत्यापन

StatisticsGen का काफी उपयोग किया है TensorFlow डेटा मान्यता आपके डेटासेट से आँकड़े पैदा करने के लिए।

StatsGen घटक का उपयोग करना

एक स्टैटिस्टिक्सजेन पाइपलाइन घटक आमतौर पर तैनात करना बहुत आसान होता है और इसके लिए बहुत कम अनुकूलन की आवश्यकता होती है। विशिष्ट कोड इस तरह दिखता है:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

एक स्कीमा के साथ StatsGen घटक का उपयोग करना

एक पाइपलाइन के पहले रन के लिए, एक स्कीमा का अनुमान लगाने के लिए स्टैटिस्टिक्सजेन के आउटपुट का उपयोग किया जाएगा। हालांकि, बाद के रन पर आपके पास मैन्युअल रूप से क्यूरेट किया गया स्कीमा हो सकता है जिसमें आपके डेटा सेट के बारे में अतिरिक्त जानकारी हो। स्टैटिस्टिक्सजेन को यह स्कीमा प्रदान करके, टीएफडीवी आपके डेटा सेट के घोषित गुणों के आधार पर अधिक उपयोगी आंकड़े प्रदान कर सकता है।

इस सेटिंग में, आप एक क्यूरेटेड स्कीमा के साथ स्टैटिस्टिक्सजेन को लागू करेंगे जिसे एक ImporterNode द्वारा इस तरह से आयात किया गया है:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

क्यूरेटेड स्कीमा बनाना

Schema TFX में TensorFlow मेटाडाटा का एक उदाहरण है Schema आद्य । इस में बना जा सकता है पाठ स्वरूप खरोंच से। हालांकि, यह द्वारा उत्पादित inferred स्कीमा उपयोग करने के लिए आसान है SchemaGen एक प्रारंभिक बिंदु के रूप में। एक बार जब SchemaGen घटक मार डाला गया है, स्कीमा निम्नलिखित रास्ते में पाइप लाइन जड़ के नीचे स्थित हो जाएगा:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

कहाँ <artifact_id> MLMD में स्कीमा के इस संस्करण के लिए एक अद्वितीय ID प्रतिनिधित्व करता है। यह स्कीमा आद्य तो डाटासेट जो मज़बूती से नहीं लगाया जा सकता है, जिनमें से उत्पादन कर देगा के बारे में जानकारी संवाद करने के लिए संशोधित किया जा सकता StatisticsGen अधिक उपयोगी और सत्यापन में प्रदर्शन ExampleValidator घटक और अधिक कठोर।

अधिक जानकारी में उपलब्ध हैं StatisticsGen API संदर्भ