सहायता Kaggle पर TensorFlow साथ ग्रेट बैरियर रीफ की रक्षा चैलेंज में शामिल हों

TFX पाइपलाइनों को समझना

MLOps स्वचालित अभ्यास, प्रबंधन और ऑडिट मशीन लर्निंग (ML) वर्कफ़्लोज़ की मदद करने के लिए DevOps प्रथाओं को लागू करने का अभ्यास है। एमएल वर्कफ़्लो में निम्न चरण शामिल हैं:

  • डेटा तैयार करना, विश्लेषण और रूपांतरण करना।
  • किसी मॉडल का प्रशिक्षण और मूल्यांकन करें।
  • प्रशिक्षित मॉडलों को उत्पादन में तैनात करें।
  • एमएल कलाकृतियों को ट्रैक करें और उनकी निर्भरता को समझें।

तदर्थ तरीके से इन चरणों का प्रबंधन करना कठिन और समय लेने वाला हो सकता है।

TFX ने MLOps को एक टूलकिट प्रदान करके इसे लागू करना आसान बना दिया है जो आपको विभिन्न ऑर्केस्ट्रेटर पर अपनी एमएल प्रक्रिया को व्यवस्थित करने में मदद करता है, जैसे: Apache Airflow, Apache Beam, और Kubeflow पाइपलाइन। TFX पाइपलाइन के रूप में अपने वर्कफ़्लो को लागू करके, आप यह कर सकते हैं:

  • अपनी एमएल प्रक्रिया को स्वचालित करें, जो आपको नियमित रूप से अपने मॉडल को बनाए रखने, मूल्यांकन और तैनात करने की अनुमति देता है।
  • बड़े डेटासेट और वर्कलोड के प्रसंस्करण के लिए वितरित कंप्यूट संसाधनों का उपयोग करें।
  • हाइपरपरमेटर्स के विभिन्न सेटों के साथ एक पाइपलाइन चलाकर प्रयोग के वेग को बढ़ाएं।

यह मार्गदर्शिका TFX पाइपलाइनों को समझने के लिए आवश्यक मुख्य अवधारणाओं का वर्णन करती है।

विरूपण साक्ष्य

TFX पाइपलाइन में चरणों के आउटपुट को कलाकृतियां कहा जाता है । आपके वर्कफ़्लो में बाद के चरण इनपुट के रूप में इन कलाकृतियों का उपयोग कर सकते हैं। इस तरह, TFX आपको वर्कफ़्लो चरणों के बीच डेटा स्थानांतरित करने देता है।

उदाहरण के लिए, उदाहरण ExampleGen मानक घटक क्रमबद्ध उदाहरणों का उत्सर्जन करता है, जो कि StatisticsGen जैसे मानक घटक इनपुट के रूप में उपयोग करते हैं।

एमएल मेटाडेटा स्टोर में पंजीकृत कलाकृतियों के साथ कलाकृतियों को दृढ़ता से टाइप किया जाना चाहिए। एमएल मेटाडेटा में उपयोग की जाने वाली अवधारणाओं के बारे में अधिक जानें।

विरूपण साक्ष्य प्रकार का एक नाम है और इसके गुणों का एक स्कीमा परिभाषित करता है। आपके एमएल मेटाडेटा स्टोर में आर्टवर्क प्रकार के नाम अद्वितीय होने चाहिए। TFX कई मानक विरूपण साक्ष्य प्रकार प्रदान करता है जो जटिल डेटा प्रकारों और मान प्रकारों का वर्णन करते हैं, जैसे: स्ट्रिंग, पूर्णांक और फ्लोट। आप इन कलाकृतियों के प्रकारों का पुन: उपयोग कर सकते हैं या कस्टम विरूपण साक्ष्य प्रकारों को परिभाषित कर सकते हैं जो कि Artifact से प्राप्त होते हैं।

पैरामीटर

पैरामीटर उन पाइपलाइनों के इनपुट हैं जो आपकी पाइपलाइन निष्पादित होने से पहले जानी जाती हैं। पैरामीटर आपको कोड के बजाय कॉन्फ़िगरेशन के माध्यम से पाइप लाइन, या पाइप लाइन के एक हिस्से के व्यवहार को बदलने देता है।

उदाहरण के लिए, आप पाइपलाइन के कोड को बदलने के बिना हाइपरपरमेटर्स के विभिन्न सेटों के साथ एक पाइपलाइन चलाने के लिए मापदंडों का उपयोग कर सकते हैं।

मापदंडों का उपयोग करने से आपको मापदंडों के विभिन्न सेटों के साथ अपनी पाइपलाइन चलाने में आसान बनाने के लिए प्रयोग के वेग को बढ़ाने की सुविधा मिलती है।

RuntimeParameter वर्ग के बारे में अधिक जानें।

अंग

एक घटक एक एमएल कार्य का कार्यान्वयन है जिसे आप अपने TFX पाइपलाइन में एक कदम के रूप में उपयोग कर सकते हैं। घटकों से बना है:

  • एक घटक विनिर्देश, जो घटक के इनपुट और आउटपुट कलाकृतियों और घटक के आवश्यक मापदंडों को परिभाषित करता है।
  • एक निष्पादक, जो आपके एमएल वर्कफ़्लो में एक चरण करने के लिए कोड को लागू करता है, जैसे कि डेटा या प्रशिक्षण को बदलना और बदलना और एक मॉडल का मूल्यांकन करना।
  • एक घटक इंटरफ़ेस, जो एक पाइपलाइन में उपयोग के लिए घटक विनिर्देश और निष्पादक को पैकेज करता है।

TFX कई मानक घटक प्रदान करता है जिनका उपयोग आप अपनी पाइपलाइनों में कर सकते हैं। यदि ये घटक आपकी आवश्यकताओं को पूरा नहीं करते हैं, तो आप कस्टम घटकों का निर्माण कर सकते हैं। कस्टम घटकों के बारे में अधिक जानें

पाइपलाइन

एक TFX पाइपलाइन एक ML वर्कफ़्लो का एक पोर्टेबल कार्यान्वयन है जिसे विभिन्न ऑर्केस्ट्रेटर पर चलाया जा सकता है, जैसे: Apache Airflow, Apache Beam और Kubeflow पाइपलाइन। एक पाइपलाइन घटक उदाहरणों और इनपुट मापदंडों से बना है।

घटक उदाहरण आउटपुट के रूप में कलाकृतियों का उत्पादन करते हैं और आम तौर पर इनपुट के रूप में अपस्ट्रीम घटक उदाहरणों द्वारा निर्मित कलाकृतियों पर निर्भर होते हैं। घटक उदाहरणों के लिए निष्पादन अनुक्रम विरूपण साक्ष्य निर्भरता के एक निर्देशित चक्रीय ग्राफ बनाकर निर्धारित किया जाता है।

उदाहरण के लिए, एक पाइपलाइन पर विचार करें जो निम्न कार्य करती है:

  • कस्टम घटक का उपयोग करके एक मालिकाना प्रणाली से सीधे डेटा प्राप्त करता है।
  • सांख्यिकी डेटा का उपयोग कर सांख्यिकी सांख्यिकी मानक घटक की गणना करता है।
  • स्कीमाजन मानक घटक का उपयोग करके एक डेटा स्कीमा बनाता है।
  • ExampleValidator मानक घटक का उपयोग करके विसंगतियों के लिए प्रशिक्षण डेटा की जाँच करता है।
  • ट्रांसफॉर्मर मानक घटक का उपयोग कर डेटासेट पर इंजीनियरिंग की सुविधा देता है।
  • ट्रेनर मानक घटक का उपयोग करके एक मॉडल को प्रशिक्षित करता है।
  • मूल्यांकनकर्ता घटक का उपयोग करके प्रशिक्षित मॉडल का मूल्यांकन करता है।
  • यदि मॉडल अपना मूल्यांकन पास करता है, तो पाइपलाइन एक कस्टम घटक का उपयोग करके प्रशिक्षित मॉडल को एक मालिकाना तैनाती प्रणाली में संलग्न करता है।

घटक उदाहरणों के लिए निष्पादन अनुक्रम निर्धारित करने के लिए, TFX विरूपण साक्ष्य निर्भरता का विश्लेषण करता है।

  • डेटा अंतर्ग्रहण घटक में कोई कलात्मक निर्भरता नहीं होती है, इसलिए यह ग्राफ़ में पहला नोड हो सकता है।
  • सांख्यिकी गेन डेटा अंतर्ग्रहण द्वारा निर्मित उदाहरणों पर निर्भर करता है, इसलिए इसे डेटा अंतर्ग्रहण के बाद निष्पादित किया जाना चाहिए।
  • स्कीमागेन सांख्यिकी गेन द्वारा बनाए गए आंकड़ों पर निर्भर करता है, इसलिए इसे सांख्यिकीगेन के बाद निष्पादित किया जाना चाहिए।
  • ExampleValidator सांख्यिकी गेन द्वारा बनाए गए आँकड़ों और स्कीमाजन द्वारा बनाए गए स्कीमा पर निर्भर करता है, इसलिए इसे सांख्यिकीगेन और स्कीमागेन के बाद निष्पादित किया जाना चाहिए।
  • रूपांतरण डेटा अंतर्ग्रहण और स्कीमाजन द्वारा बनाए गए स्कीमा द्वारा निर्मित उदाहरणों पर निर्भर करता है, इसलिए डेटा अंतर्ग्रहण और स्कीमागेन के बाद इसे निष्पादित किया जाना चाहिए।
  • ट्रेनर डेटा घूस, स्कीमा SchemaGen द्वारा बनाई गई है, और बचाया मॉडल रूपांतरण द्वारा उत्पादित द्वारा उत्पादित उदाहरण पर निर्भर करता है। ट्रेनर को डेटा अंतर्ग्रहण, स्कीमाजेन और ट्रांसफॉर्म के बाद ही निष्पादित किया जा सकता है।
  • मूल्यांकनकर्ता डेटा अंतर्ग्रहण द्वारा उत्पादित उदाहरणों और ट्रेनर द्वारा निर्मित सहेजे गए मॉडल पर निर्भर करता है, इसलिए इसे डेटा अंतर्ग्रहण और ट्रेनर के बाद निष्पादित किया जाना चाहिए।
  • कस्टम तैनाती ट्रेनर द्वारा निर्मित सहेजे गए मॉडल और एवल्यूलेटर द्वारा बनाए गए विश्लेषण परिणामों पर निर्भर करती है, इसलिए ट्रेनर और एवैल्यूएटर के बाद तैनाती को निष्पादित किया जाना चाहिए।

इस विश्लेषण के आधार पर, एक ऑर्केस्ट्रेटर चलता है:

  • डेटा अंतर्ग्रहण, स्टेटिस्टेनजेन, स्कीमागेन घटक क्रमिक रूप से होता है।
  • ExampleValidator और Transform घटक समानांतर में चल सकते हैं क्योंकि वे इनपुट विरूपण साक्ष्य निर्भरता साझा करते हैं और एक दूसरे के आउटपुट पर निर्भर नहीं होते हैं।
  • ट्रांसफॉर्म कंपोनेंट पूरा होने के बाद, ट्रेनर, इवैल्यूएटर, और कस्टम तैनाती कंपोनेंट इंस्टेंसेस क्रमिक रूप से चलते हैं।

TFX पाइपलाइन बनाने के बारे में और जानें।

TFX पाइपलाइन टेम्पलेट

TFX पाइपलाइन टेम्प्लेट एक प्रीबिल्ट पाइपलाइन प्रदान करके पाइपलाइन विकास के साथ आरंभ करना आसान बनाते हैं जिसे आप अपने उपयोग के मामले के लिए अनुकूलित कर सकते हैं।

TFX पाइपलाइन टेम्पलेट को अनुकूलित करने के बारे में और जानें।

पाइपलाइन रन

एक रन एक पाइपलाइन का एकल निष्पादन है।

वाद्यवृंदकार

एक ऑर्केस्ट्रेटर एक प्रणाली है जहां आप पाइपलाइन रन को निष्पादित कर सकते हैं। TFX ऑर्केटर का समर्थन करता है जैसे: Apache Airflow , Apache Beam , और Kubeflow पाइपलाइन । TFX एक ऑर्केस्ट्रेटर का समर्थन करने वाले कार्यान्वयन को संदर्भित करने के लिए DagRunner शब्द का उपयोग करता है।