टीएफएक्स पाइपलाइनों को समझना

MLOps मशीन लर्निंग (ML) वर्कफ़्लो को स्वचालित, प्रबंधित और ऑडिट करने में मदद करने के लिए DevOps प्रथाओं को लागू करने का अभ्यास है। एमएल वर्कफ़्लो में निम्न चरण शामिल हैं:

  • डेटा तैयार, विश्लेषण और रूपांतरित करें।
  • एक मॉडल को प्रशिक्षित और मूल्यांकन करें।
  • उत्पादन के लिए प्रशिक्षित मॉडल तैनात करें।
  • एमएल कलाकृतियों को ट्रैक करें और उनकी निर्भरता को समझें।

इन चरणों को तदर्थ तरीके से प्रबंधित करना कठिन और समय लेने वाला हो सकता है।

TFX एक टूलकिट प्रदान करके MLOps को लागू करना आसान बनाता है जो आपको विभिन्न ऑर्केस्ट्रेटर पर अपनी ML प्रक्रिया को व्यवस्थित करने में मदद करता है, जैसे: Apache Airflow, Apache Beam, और Kubeflow पाइपलाइन। अपने कार्यप्रवाह को TFX पाइपलाइन के रूप में कार्यान्वित करके, आप यह कर सकते हैं:

  • अपनी एमएल प्रक्रिया को स्वचालित करें, जिससे आप नियमित रूप से अपने मॉडल को फिर से प्रशिक्षित, मूल्यांकन और परिनियोजित कर सकते हैं।
  • बड़े डेटासेट और वर्कलोड को संसाधित करने के लिए वितरित कंप्यूट संसाधनों का उपयोग करें।
  • हाइपरपैरामीटर के विभिन्न सेटों के साथ एक पाइपलाइन चलाकर प्रयोग के वेग को बढ़ाएं।

यह मार्गदर्शिका TFX पाइपलाइनों को समझने के लिए आवश्यक मूल अवधारणाओं का वर्णन करती है।

विरूपण साक्ष्य

TFX पाइपलाइन में चरणों के आउटपुट को आर्टिफैक्ट कहा जाता है। आपके वर्कफ़्लो के बाद के चरण इन कलाकृतियों को इनपुट के रूप में उपयोग कर सकते हैं। इस प्रकार, TFX आपको कार्यप्रवाह चरणों के बीच डेटा स्थानांतरित करने देता है।

उदाहरण के लिए, ExampleGen मानक घटक क्रमबद्ध उदाहरणों का उत्सर्जन करता है, जो कि StatisticsGen मानक घटक जैसे घटक इनपुट के रूप में उपयोग करते हैं।

ML मेटाडेटा स्टोर में पंजीकृत आर्टिफ़ैक्ट प्रकार के साथ कलाकृतियों को दृढ़ता से टाइप किया जाना चाहिए। एमएल मेटाडेटा में प्रयुक्त अवधारणाओं के बारे में अधिक जानें।

विरूपण साक्ष्य प्रकारों का एक नाम होता है और इसके गुणों की एक स्कीमा परिभाषित करता है। आपके ML मेटाडेटा स्टोर में विरूपण साक्ष्य प्रकार के नाम अद्वितीय होने चाहिए। टीएफएक्स कई मानक आर्टिफैक्ट प्रकार प्रदान करता है जो जटिल डेटा प्रकारों और मूल्य प्रकारों का वर्णन करता है, जैसे: स्ट्रिंग, पूर्णांक, और फ्लोट। आप इन आर्टिफ़ैक्ट प्रकारों का पुन: उपयोग कर सकते हैं या आर्टिफ़ैक्ट से प्राप्त होने वाले कस्टम Artifact प्रकारों को परिभाषित कर सकते हैं।

पैरामीटर

पैरामीटर पाइपलाइनों के इनपुट होते हैं जिन्हें आपकी पाइपलाइन निष्पादित होने से पहले जाना जाता है। पैरामीटर आपको कोड के बजाय कॉन्फ़िगरेशन के माध्यम से पाइपलाइन, या पाइपलाइन के एक हिस्से के व्यवहार को बदलने देते हैं।

उदाहरण के लिए, आप पाइपलाइन के कोड को बदले बिना हाइपरपैरामीटर के विभिन्न सेटों के साथ पाइपलाइन चलाने के लिए पैरामीटर का उपयोग कर सकते हैं।

पैरामीटर का उपयोग करने से आप अपनी पाइपलाइन को पैरामीटर के विभिन्न सेटों के साथ चलाना आसान बनाकर प्रयोग के वेग को बढ़ा सकते हैं।

रनटाइम पैरामीटर वर्ग के बारे में और जानें।

अवयव

एक घटक एक एमएल कार्य का कार्यान्वयन है जिसे आप अपने टीएफएक्स पाइपलाइन में एक कदम के रूप में उपयोग कर सकते हैं। घटकों से बना है:

  • एक घटक विनिर्देश, जो घटक के इनपुट और आउटपुट कलाकृतियों और घटक के आवश्यक मापदंडों को परिभाषित करता है।
  • एक निष्पादक, जो आपके एमएल वर्कफ़्लो में एक चरण को निष्पादित करने के लिए कोड को लागू करता है, जैसे डेटा को अंतर्ग्रहण और परिवर्तित करना या प्रशिक्षण और एक मॉडल का मूल्यांकन करना।
  • एक घटक इंटरफ़ेस, जो एक पाइपलाइन में उपयोग के लिए घटक विनिर्देश और निष्पादक को पैकेज करता है।

TFX कई मानक घटक प्रदान करता है जिनका उपयोग आप अपनी पाइपलाइनों में कर सकते हैं। यदि ये घटक आपकी आवश्यकताओं को पूरा नहीं करते हैं, तो आप कस्टम घटकों का निर्माण कर सकते हैं। कस्टम घटकों के बारे में अधिक जानें

पाइपलाइन

एक टीएफएक्स पाइपलाइन एक एमएल वर्कफ़्लो का पोर्टेबल कार्यान्वयन है जिसे विभिन्न ऑर्केस्ट्रेटर पर चलाया जा सकता है, जैसे: अपाचे एयरफ्लो, अपाचे बीम, और क्यूबफ्लो पाइपलाइन। एक पाइपलाइन घटक उदाहरणों और इनपुट मापदंडों से बना है।

घटक उदाहरण आउटपुट के रूप में कलाकृतियों का उत्पादन करते हैं और आम तौर पर इनपुट के रूप में अपस्ट्रीम घटक उदाहरणों द्वारा उत्पादित कलाकृतियों पर निर्भर करते हैं। घटक उदाहरणों के लिए निष्पादन अनुक्रम आर्टिफैक्ट निर्भरताओं का एक निर्देशित चक्रीय ग्राफ बनाकर निर्धारित किया जाता है।

उदाहरण के लिए, एक पाइपलाइन पर विचार करें जो निम्न कार्य करती है:

  • एक कस्टम घटक का उपयोग करके सीधे मालिकाना प्रणाली से डेटा अंतर्ग्रहण करता है।
  • स्टैटिस्टिक्सजेन मानक घटक का उपयोग करके प्रशिक्षण डेटा के आंकड़ों की गणना करता है।
  • स्कीमाजेन मानक घटक का उपयोग करके डेटा स्कीमा बनाता है।
  • उदाहरण वैलिडेटर मानक घटक का उपयोग करके विसंगतियों के लिए प्रशिक्षण डेटा की जाँच करता है।
  • ट्रांसफॉर्म मानक घटक का उपयोग करके डेटासेट पर फीचर इंजीनियरिंग करता है।
  • ट्रेनर मानक घटक का उपयोग करके एक मॉडल को प्रशिक्षित करता है।
  • मूल्यांकनकर्ता घटक का उपयोग करके प्रशिक्षित मॉडल का मूल्यांकन करता है।
  • यदि मॉडल अपना मूल्यांकन पास करता है, तो पाइपलाइन एक कस्टम घटक का उपयोग करके प्रशिक्षित मॉडल को एक मालिकाना परिनियोजन प्रणाली में संलग्न करती है।

घटक उदाहरणों के लिए निष्पादन अनुक्रम निर्धारित करने के लिए, टीएफएक्स आर्टिफैक्ट निर्भरताओं का विश्लेषण करता है।

  • डेटा अंतर्ग्रहण घटक में कोई आर्टिफ़ैक्ट निर्भरता नहीं होती है, इसलिए यह ग्राफ़ में पहला नोड हो सकता है।
  • स्टैटिस्टिक्सजेन डेटा अंतर्ग्रहण द्वारा निर्मित उदाहरणों पर निर्भर करता है, इसलिए इसे डेटा अंतर्ग्रहण के बाद निष्पादित किया जाना चाहिए।
  • स्कीमाजेन स्टैटिस्टिक्सजेन द्वारा बनाए गए आँकड़ों पर निर्भर करता है, इसलिए इसे स्टैटिस्टिक्सजेन के बाद निष्पादित किया जाना चाहिए।
  • उदाहरण वैलिडेटर स्टैटिस्टिक्सजेन द्वारा बनाए गए आंकड़ों और स्कीमाजेन द्वारा बनाए गए स्कीमा पर निर्भर करता है, इसलिए इसे स्टैटिस्टिक्सजेन और स्कीमाजेन के बाद निष्पादित किया जाना चाहिए।
  • रूपांतरण डेटा अंतर्ग्रहण द्वारा निर्मित उदाहरणों और स्कीमाजेन द्वारा बनाए गए स्कीमा पर निर्भर करता है, इसलिए इसे डेटा अंतर्ग्रहण और स्कीमाजेन के बाद निष्पादित किया जाना चाहिए।
  • ट्रेनर डेटा अंतर्ग्रहण द्वारा निर्मित उदाहरणों पर निर्भर करता है, स्कीमाजेन द्वारा बनाई गई स्कीमा , और ट्रांसफॉर्म द्वारा निर्मित सहेजे गए मॉडल । ट्रेनर को डेटा अंतर्ग्रहण, स्कीमाजेन और ट्रांसफॉर्म के बाद ही निष्पादित किया जा सकता है।
  • मूल्यांकनकर्ता डेटा अंतर्ग्रहण द्वारा उत्पादित उदाहरणों और ट्रेनर द्वारा उत्पादित सहेजे गए मॉडल पर निर्भर करता है, इसलिए इसे डेटा अंतर्ग्रहण और ट्रेनर के बाद निष्पादित किया जाना चाहिए।
  • कस्टम डिप्लॉयर ट्रेनर द्वारा बनाए गए सहेजे गए मॉडल और मूल्यांकनकर्ता द्वारा बनाए गए विश्लेषण परिणामों पर निर्भर करता है, इसलिए ट्रेनर और इवैल्यूएटर के बाद डिप्लॉयर को निष्पादित किया जाना चाहिए।

इस विश्लेषण के आधार पर, एक ऑर्केस्ट्रेटर चलता है:

  • डेटा अंतर्ग्रहण, स्टैटिस्टिक्सजेन, स्कीमाजेन घटक क्रमिक रूप से उदाहरण देते हैं।
  • उदाहरण वैलिडेटर और ट्रांसफॉर्म घटक समानांतर में चल सकते हैं क्योंकि वे इनपुट आर्टिफैक्ट निर्भरता साझा करते हैं और एक दूसरे के आउटपुट पर निर्भर नहीं होते हैं।
  • ट्रांसफ़ॉर्म घटक पूरा होने के बाद, ट्रेनर, मूल्यांकनकर्ता और कस्टम डिप्लॉयर घटक इंस्टेंस क्रमिक रूप से चलते हैं।

TFX पाइपलाइन बनाने के बारे में और जानें।

TFX पाइपलाइन टेम्प्लेट

TFX पाइपलाइन टेम्प्लेट एक पूर्व-निर्मित पाइपलाइन प्रदान करके पाइपलाइन विकास के साथ आरंभ करना आसान बनाते हैं जिसे आप अपने उपयोग के मामले के लिए अनुकूलित कर सकते हैं।

TFX पाइपलाइन टेम्पलेट को अनुकूलित करने के बारे में अधिक जानें।

पाइपलाइन रन

एक रन एक पाइपलाइन का एकल निष्पादन है।

वाद्यवृंदकार

एक ऑर्केस्ट्रेटर एक ऐसी प्रणाली है जहां आप पाइपलाइन रन निष्पादित कर सकते हैं। टीएफएक्स ऑर्केस्ट्रेटर का समर्थन करता है जैसे: अपाचे एयरफ्लो , अपाचे बीम , और क्यूबफ्लो पाइपलाइन । TFX एक ऑर्केस्ट्रेटर का समर्थन करने वाले कार्यान्वयन को संदर्भित करने के लिए डैगरनर शब्द का भी उपयोग करता है।