स्टैटिस्टिक्सजेन टीएफएक्स पाइपलाइन घटक प्रशिक्षण और सेवा डेटा दोनों पर फीचर आंकड़े उत्पन्न करता है, जिसका उपयोग अन्य पाइपलाइन घटकों द्वारा किया जा सकता है। स्टैटिस्टिक्सजेन बड़े डेटासेट को स्केल करने के लिए बीम का उपयोग करता है।
- उपभोग करता है: एक exampleGen पाइपलाइन घटक द्वारा बनाए गए डेटासेट।
- उत्सर्जन: डेटासेट आँकड़े।
सांख्यिकीजेन और TensorFlow डेटा सत्यापन
StatisticsGen का काफी उपयोग किया है TensorFlow डेटा मान्यता आपके डेटासेट से आँकड़े पैदा करने के लिए।
StatsGen घटक का उपयोग करना
एक स्टैटिस्टिक्सजेन पाइपलाइन घटक आमतौर पर तैनात करना बहुत आसान होता है और इसके लिए बहुत कम अनुकूलन की आवश्यकता होती है। विशिष्ट कोड इस तरह दिखता है:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
एक स्कीमा के साथ StatsGen घटक का उपयोग करना
एक पाइपलाइन के पहले रन के लिए, एक स्कीमा का अनुमान लगाने के लिए स्टैटिस्टिक्सजेन के आउटपुट का उपयोग किया जाएगा। हालांकि, बाद के रन पर आपके पास मैन्युअल रूप से क्यूरेट किया गया स्कीमा हो सकता है जिसमें आपके डेटा सेट के बारे में अतिरिक्त जानकारी हो। स्टैटिस्टिक्सजेन को यह स्कीमा प्रदान करके, टीएफडीवी आपके डेटा सेट के घोषित गुणों के आधार पर अधिक उपयोगी आंकड़े प्रदान कर सकता है।
इस सेटिंग में, आप एक क्यूरेटेड स्कीमा के साथ स्टैटिस्टिक्सजेन को लागू करेंगे जिसे एक ImporterNode द्वारा इस तरह से आयात किया गया है:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
क्यूरेटेड स्कीमा बनाना
Schema
TFX में TensorFlow मेटाडाटा का एक उदाहरण है Schema
आद्य । इस में बना जा सकता है पाठ स्वरूप खरोंच से। हालांकि, यह द्वारा उत्पादित inferred स्कीमा उपयोग करने के लिए आसान है SchemaGen
एक प्रारंभिक बिंदु के रूप में। एक बार जब SchemaGen
घटक मार डाला गया है, स्कीमा निम्नलिखित रास्ते में पाइप लाइन जड़ के नीचे स्थित हो जाएगा:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
कहाँ <artifact_id>
MLMD में स्कीमा के इस संस्करण के लिए एक अद्वितीय ID प्रतिनिधित्व करता है। यह स्कीमा आद्य तो डाटासेट जो मज़बूती से नहीं लगाया जा सकता है, जिनमें से उत्पादन कर देगा के बारे में जानकारी संवाद करने के लिए संशोधित किया जा सकता StatisticsGen
अधिक उपयोगी और सत्यापन में प्रदर्शन ExampleValidator
घटक और अधिक कठोर।
अधिक जानकारी में उपलब्ध हैं StatisticsGen API संदर्भ ।