कुछ TFX घटकों अपने इनपुट डेटा एक स्कीमा कहा जाता है का एक विवरण का उपयोग करें। स्कीमा का एक उदाहरण है schema.proto । यह फीचर मानों के लिए डेटा प्रकार निर्दिष्ट कर सकता है, चाहे किसी फीचर को सभी उदाहरणों, अनुमत मान श्रेणियों और अन्य गुणों में मौजूद होना चाहिए। एक स्कीमाजेन पाइपलाइन घटक स्वचालित रूप से प्रशिक्षण डेटा से प्रकार, श्रेणियों और श्रेणियों का हवाला देकर एक स्कीमा उत्पन्न करेगा।
- उपभोग करता है: एक स्टैटिस्टिक्सजेन घटक से आँकड़े
- उत्सर्जन: डेटा स्कीमा प्रोटो
यहाँ एक स्कीमा प्रोटो से एक अंश दिया गया है:
...
feature {
name: "age"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
feature {
name: "capital-gain"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
...
निम्नलिखित TFX पुस्तकालय स्कीमा का उपयोग करते हैं:
- TensorFlow डेटा सत्यापन
- टेंसरफ्लो ट्रांसफॉर्म
- TensorFlow मॉडल विश्लेषण
एक विशिष्ट टीएफएक्स पाइपलाइन में स्कीमाजेन एक स्कीमा उत्पन्न करता है, जो अन्य पाइपलाइन घटकों द्वारा उपभोग किया जाता है। हालांकि, ऑटो-जेनरेटेड स्कीमा सर्वोत्तम प्रयास है और केवल डेटा के मूल गुणों का अनुमान लगाने का प्रयास करता है। यह अपेक्षा की जाती है कि डेवलपर्स इसकी समीक्षा करें और आवश्यकतानुसार इसे संशोधित करें।
संशोधित स्कीमा को ImportSchemaGen घटक का उपयोग करके पाइपलाइन में वापस लाया जा सकता है। प्रारंभिक स्कीमा पीढ़ी के लिए स्कीमाजेन घटक को हटाया जा सकता है और सभी डाउनस्ट्रीम घटक इम्पोर्टशेमाजेन के आउटपुट का उपयोग कर सकते हैं। यह भी जोड़ने के लिए सिफारिश की है ExampleValidator लगातार प्रशिक्षण डेटा की जांच के लिए आयात स्कीमा का उपयोग कर।
स्कीमाजेन और टेंसरफ्लो डेटा सत्यापन
SchemaGen का काफी उपयोग किया है TensorFlow डेटा मान्यता एक स्कीमा का निष्कर्ष निकालते के लिए।
स्कीमाजेन घटक का उपयोग करना
प्रारंभिक स्कीमा पीढ़ी के लिए
एक स्कीमाजेन पाइपलाइन घटक आमतौर पर तैनात करना बहुत आसान होता है और इसके लिए बहुत कम अनुकूलन की आवश्यकता होती है। विशिष्ट कोड इस तरह दिखता है:
schema_gen = tfx.components.SchemaGen(
statistics=stats_gen.outputs['statistics'])
अधिक जानकारी में उपलब्ध हैं SchemaGen API संदर्भ ।
समीक्षित स्कीमा आयात के लिए
पाइपलाइन में समीक्षित स्कीमा परिभाषा लाने के लिए इम्पोर्टस्केमाजेन घटक को पाइपलाइन में जोड़ें।
schema_gen = tfx.components.ImportSchemaGen(
schema_file='/some/path/schema.pbtxt')
schema_file
पाठ Protobuf फाइल करने के लिए एक पूर्ण पथ होना चाहिए।
अधिक जानकारी में उपलब्ध हैं ImportSchemaGen API संदर्भ ।