सहायता Kaggle पर TensorFlow साथ ग्रेट बैरियर रीफ की रक्षा चैलेंज में शामिल हों

टीएफएक्स पाइपलाइनों का निर्माण

का उपयोग करते हुए Pipeline वर्ग

TFX पाइपलाइनों का उपयोग कर परिभाषित कर रहे हैं Pipeline वर्ग । निम्न उदाहरण दर्शाता है कि कैसे उपयोग करने के लिए Pipeline वर्ग।

pipeline.Pipeline(
    pipeline_name=pipeline-name,
    pipeline_root=pipeline-root,
    components=components,
    enable_cache=enable-cache,
    metadata_connection_config=metadata-connection-config,
)

निम्नलिखित को बदलें:

  • pipeline-name : इस पाइप लाइन के नाम पर। पाइपलाइन का नाम अद्वितीय होना चाहिए।

    घटक इनपुट कलाकृतियों के लिए एमएल मेटाडेटा को क्वेरी करते समय टीएफएक्स पाइपलाइन नाम का उपयोग करता है। पाइपलाइन नाम का पुन: उपयोग करने से अनपेक्षित व्यवहार हो सकते हैं।

  • pipeline-root : इस पाइप लाइन के निर्गम की रूट पथ। रूट पथ उस निर्देशिका का पूर्ण पथ होना चाहिए जिसे आपके ऑर्केस्ट्रेटर ने पढ़ा और लिखा हो। रनटाइम पर, टीएफएक्स घटक कलाकृतियों के लिए आउटपुट पथ उत्पन्न करने के लिए पाइपलाइन रूट का उपयोग करता है। यह निर्देशिका स्थानीय हो सकती है, या समर्थित वितरित फ़ाइल सिस्टम, जैसे Google क्लाउड स्टोरेज या एचडीएफएस पर हो सकती है।

  • components : घटक उदाहरणों है कि इस पाइपलाइन के कार्यप्रवाह बनाने की एक सूची।

  • enable-cache : (वैकल्पिक।) एक बूलियन मान इस पाइप लाइन का उपयोग करता है पाइपलाइन निष्पादन में तेजी लाने के कैशिंग यदि इंगित करता है कि।

  • metadata-connection-config : (वैकल्पिक)। एमएल मेटाडाटा के लिए एक कनेक्शन विन्यास।

घटक निष्पादन ग्राफ को परिभाषित करना

घटक उदाहरण आउटपुट के रूप में कलाकृतियों का उत्पादन करते हैं और आम तौर पर इनपुट के रूप में अपस्ट्रीम घटक उदाहरणों द्वारा उत्पादित कलाकृतियों पर निर्भर करते हैं। घटक उदाहरणों के लिए निष्पादन अनुक्रम आर्टिफैक्ट निर्भरताओं के निर्देशित एसाइक्लिक ग्राफ (डीएजी) बनाकर निर्धारित किया जाता है।

उदाहरण के लिए, ExampleGen मानक घटक एक CSV फ़ाइल और आउटपुट धारावाहिक उदाहरण रिकॉर्ड से डेटा निगलना कर सकते हैं। StatisticsGen मानक घटक इनपुट के रूप में इन उदाहरण रिकॉर्ड स्वीकार करता है और डाटासेट आँकड़े पैदा करता है। इस उदाहरण में, के कहने StatisticsGen का पालन करना होगा ExampleGen क्योंकि SchemaGen के उत्पादन पर निर्भर करता है ExampleGen

कार्य-आधारित निर्भरता

तुम भी कार्य-आधारित अपने घटक का उपयोग निर्भरता को परिभाषित कर सकते add_upstream_node और add_downstream_node तरीकों। add_upstream_node आपके द्वारा निर्दिष्ट है कि मौजूदा घटक निर्दिष्ट घटक के बाद मार डाला जाना चाहिए करने देता है। add_downstream_node आपके द्वारा निर्दिष्ट है कि मौजूदा घटक निर्दिष्ट घटक से पहले मार डाला जाना चाहिए करने देता है।

पाइपलाइन टेम्पलेट्स

एक पाइपलाइन को जल्दी से स्थापित करने का सबसे आसान तरीका है, और यह देखने के लिए कि सभी टुकड़े एक साथ कैसे फिट होते हैं, एक टेम्पलेट का उपयोग करना है। का उपयोग टेम्पलेट्स में कवर किया जाता है स्थानीय स्तर पर एक TFX पाइपलाइन का निर्माण

कैशिंग

TFX पाइपलाइन कैशिंग आपकी पाइपलाइन को पिछले पाइपलाइन रन में इनपुट के समान सेट के साथ निष्पादित किए गए घटकों पर छोड़ देता है। यदि कैशिंग सक्षम है, तो पाइपलाइन प्रत्येक घटक के हस्ताक्षर, घटक और इनपुट के सेट को इस पाइपलाइन के पिछले घटक निष्पादन में से एक से मिलाने का प्रयास करती है। यदि कोई मेल है, तो पाइपलाइन पिछले रन से घटक आउटपुट का उपयोग करती है। यदि कोई मेल नहीं है, तो घटक निष्पादित किया जाता है।

यदि आपकी पाइपलाइन गैर-नियतात्मक घटकों का उपयोग करती है, तो कैशिंग का उपयोग न करें। उदाहरण के लिए, यदि आप अपनी पाइपलाइन के लिए एक यादृच्छिक संख्या बनाने के लिए एक घटक बनाते हैं, तो कैश को सक्षम करने से यह घटक एक बार निष्पादित हो जाता है। इस उदाहरण में, बाद के रन यादृच्छिक संख्या उत्पन्न करने के बजाय पहले रन की यादृच्छिक संख्या का उपयोग करते हैं।