सहायता Kaggle पर TensorFlow साथ ग्रेट बैरियर रीफ की रक्षा चैलेंज में शामिल हों

स्कीमाजेन टीएफएक्स पाइपलाइन घटक

कुछ TFX घटकों अपने इनपुट डेटा एक स्कीमा कहा जाता है का एक विवरण का उपयोग करें। स्कीमा का एक उदाहरण है schema.proto । यह फीचर मानों के लिए डेटा प्रकार निर्दिष्ट कर सकता है, चाहे किसी फीचर को सभी उदाहरणों, अनुमत मान श्रेणियों और अन्य गुणों में मौजूद होना चाहिए। एक स्कीमाजेन पाइपलाइन घटक स्वचालित रूप से प्रशिक्षण डेटा से प्रकार, श्रेणियों और श्रेणियों का हवाला देकर एक स्कीमा उत्पन्न करेगा।

  • उपभोग करता है: एक स्टैटिस्टिक्सजेन घटक से आँकड़े
  • उत्सर्जन: डेटा स्कीमा प्रोटो

यहाँ एक स्कीमा प्रोटो से एक अंश दिया गया है:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

निम्नलिखित TFX पुस्तकालय स्कीमा का उपयोग करते हैं:

  • TensorFlow डेटा सत्यापन
  • टेंसरफ्लो ट्रांसफॉर्म
  • TensorFlow मॉडल विश्लेषण

एक विशिष्ट टीएफएक्स पाइपलाइन में स्कीमाजेन एक स्कीमा उत्पन्न करता है, जो अन्य पाइपलाइन घटकों द्वारा उपभोग किया जाता है। हालांकि, ऑटो-जेनरेटेड स्कीमा सर्वोत्तम प्रयास है और केवल डेटा के मूल गुणों का अनुमान लगाने का प्रयास करता है। यह अपेक्षा की जाती है कि डेवलपर्स इसकी समीक्षा करें और आवश्यकतानुसार इसे संशोधित करें।

संशोधित स्कीमा को ImportSchemaGen घटक का उपयोग करके पाइपलाइन में वापस लाया जा सकता है। प्रारंभिक स्कीमा पीढ़ी के लिए स्कीमाजेन घटक को हटाया जा सकता है और सभी डाउनस्ट्रीम घटक इम्पोर्टशेमाजेन के आउटपुट का उपयोग कर सकते हैं। यह भी जोड़ने के लिए सिफारिश की है ExampleValidator लगातार प्रशिक्षण डेटा की जांच के लिए आयात स्कीमा का उपयोग कर।

स्कीमाजेन और टेंसरफ्लो डेटा सत्यापन

SchemaGen का काफी उपयोग किया है TensorFlow डेटा मान्यता एक स्कीमा का निष्कर्ष निकालते के लिए।

स्कीमाजेन घटक का उपयोग करना

प्रारंभिक स्कीमा पीढ़ी के लिए

एक स्कीमाजेन पाइपलाइन घटक आमतौर पर तैनात करना बहुत आसान होता है और इसके लिए बहुत कम अनुकूलन की आवश्यकता होती है। विशिष्ट कोड इस तरह दिखता है:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

अधिक जानकारी में उपलब्ध हैं SchemaGen API संदर्भ

समीक्षित स्कीमा आयात के लिए

पाइपलाइन में समीक्षित स्कीमा परिभाषा लाने के लिए इम्पोर्टस्केमाजेन घटक को पाइपलाइन में जोड़ें।

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

schema_file पाठ Protobuf फाइल करने के लिए एक पूर्ण पथ होना चाहिए।

अधिक जानकारी में उपलब्ध हैं ImportSchemaGen API संदर्भ