मॉडल रेमेडियेशन के लिए काउंटरफैक्टुअल लॉजिट पेयरिंग

काउंटरफैक्टुअल लॉगिट पेयरिंग (CLP) TensorFlow मॉडल रेमेडिएशन लाइब्रेरी के भीतर एक तकनीक है जो यह सुनिश्चित करने का प्रयास करती है कि किसी उदाहरण में संदर्भित संवेदनशील विशेषता को या तो हटा दिया जाए या बदल दिया जाए तो मॉडल की भविष्यवाणी नहीं बदलेगी। उदाहरण के लिए, विषाक्तता वर्गीकरण में, "मैं एक आदमी हूं" और "मैं एक समलैंगिक हूं" जैसे उदाहरणों में विषाक्तता की एक अलग भविष्यवाणी नहीं होनी चाहिए।

इस विषय पर गहन चर्चा के लिए, काउंटरफैक्टुअल फेयरनेस , एडवरसैरियल लॉगिट पेयरिंग और काउंटरफैक्टुअल लॉगिट पेयरिंग पर शोध देखें।

आपको काउंटरफैक्टुअल लॉगिट पेयरिंग का उपयोग कब करना चाहिए?

सीएलपी उस परिदृश्य को संबोधित करता है जहां एक विशेषता में संदर्भित संवेदनशील विशेषता में परिवर्तन भविष्यवाणी को बदल देता है (जब भविष्यवाणी को नहीं बदलना चाहिए था)। ऐसा करने में, यह इस प्रश्न का उत्तर देने का प्रयास करता है: क्या यह मॉडल पूरी तरह से एक पहचान विशेषता की उपस्थिति के आधार पर अपनी भविष्यवाणी को बदलने के लिए अतिसंवेदनशील है? प्रतितथ्यात्मक निष्पक्षता के विवरण के लिए शोध पत्र देखें।

इस समस्या को पर्सपेक्टिव एपीआई में देखा गया था, जो एक एमएल टूल है जिसका उपयोग डेवलपर्स और प्रकाशकों द्वारा संभावित आपत्तिजनक या विषाक्त पाठ के लिए टिप्पणियों की सामग्री का विश्लेषण करने के लिए किया जाता है। पर्सपेक्टिव एपीआई टिप्पणी पाठ को इनपुट के रूप में लेता है और टिप्पणी के विषाक्त होने की संभावना के संकेत के रूप में 0 से 1 तक का स्कोर देता है। उदाहरण के लिए, "आप एक बेवकूफ हैं" जैसी टिप्पणी को विषाक्तता के लिए 0.8 का संभाव्यता स्कोर प्राप्त हो सकता है, यह दर्शाता है कि यह कितनी संभावना है कि एक पाठक उस टिप्पणी को विषाक्त समझेगा।

पर्सपेक्टिव एपीआई के प्रारंभिक लॉन्च के बाद, बाहरी उपयोगकर्ताओं ने पहचान की शर्तों के बीच एक सकारात्मक सहसंबंध की खोज की जिसमें नस्ल या यौन अभिविन्यास और अनुमानित विषाक्तता स्कोर की जानकारी शामिल थी। उदाहरण के लिए, वाक्यांश "मैं एक समलैंगिक हूं" को 0.51 का स्कोर मिला, जबकि "मैं एक आदमी हूं" को 0.2 का निचला स्कोर मिला। इस मामले में, पहचान की शर्तों का इस्तेमाल अपमानजनक रूप से नहीं किया जा रहा था, इसलिए स्कोर में इतना महत्वपूर्ण अंतर नहीं होना चाहिए। पर्सपेक्टिव एपीआई के बारे में अधिक जानकारी के लिए, अनपेक्षित पूर्वाग्रह और पहचान की शर्तों पर ब्लॉग पोस्ट देखें।

मैं काउंटरफैक्टुअल लॉगिट पेयरिंग के प्रभाव को कैसे माप सकता हूं?

यदि आपने अपने मशीन लर्निंग मॉडल का आकलन किया है और यह निर्धारित किया है कि विशिष्ट संवेदनशील विशेषताओं में परिवर्तन के कारण पूर्वानुमानों में परिवर्तन हानिकारक होगा, तो आपको इस मुद्दे की व्यापकता को मापना चाहिए। बाइनरी या मल्टी-क्लास क्लासिफायरियर के मामले में, फ्लिप को एक क्लासिफायरियर के रूप में परिभाषित किया जाता है जो एक अलग निर्णय देता है (जैसे कि टॉक्सिक से नॉट टॉक्सिक में भविष्यवाणी को बदलना) जब उदाहरण में संदर्भित संवेदनशील विशेषता बदल जाती है। फ़्लिप की व्यापकता का आकलन करते समय, आप फ़्लिप काउंट और फ़्लिप दर को देख सकते हैं। फ्लिप के कारण होने वाले संभावित उपयोगकर्ता नुकसान और फ़्लिप होने की आवृत्ति को ध्यान में रखते हुए, आप यह निर्धारित कर सकते हैं कि क्या यह एक ऐसी समस्या है जिसे CLP लागू करके संबोधित किया जाना चाहिए। इन मेट्रिक्स के बारे में अधिक जानकारी के लिए, निष्पक्षता संकेतक मार्गदर्शिका देखें।

मैं किस प्रकार के मॉडल पर काउंटरफैक्टुअल लॉगिट पेयरिंग लागू कर सकता हूं?

इस तकनीक का उपयोग विभिन्न प्रकार के डेटा जैसे टेक्स्ट, इमेज और वीडियो के बाइनरी और मल्टी-क्लास क्लासिफायर के साथ किया जा सकता है।

काउंटरफैक्टुअल लॉगिट पेयरिंग मेरे लिए कब सही नहीं है?

सीएलपी सभी स्थितियों के लिए सही तरीका नहीं है। उदाहरण के लिए, यह प्रासंगिक नहीं है यदि पहचान शब्द की उपस्थिति या अनुपस्थिति वैध रूप से क्लासिफायर भविष्यवाणी को बदल देती है। यह मामला हो सकता है यदि क्लासिफायर का उद्देश्य यह निर्धारित करना है कि सुविधा किसी विशेष पहचान समूह को संदर्भित कर रही है या नहीं। यह विधि भी कम प्रभावशाली है यदि क्लासिफायर परिणाम और पहचान समूह के बीच अनपेक्षित सहसंबंध का उपयोगकर्ता पर कोई नकारात्मक प्रभाव नहीं पड़ता है।

सीएलपी यह जांचने के लिए उपयोगी है कि क्या कोई भाषा मॉडल या टॉक्सिसिटी क्लासिफायर अपने आउटपुट को अनुचित तरीके से बदल रहा है (उदाहरण के लिए टेक्स्ट के एक टुकड़े को टॉक्सिक के रूप में वर्गीकृत करना) सिर्फ इसलिए कि "ब्लैक", "गे", "मुस्लिम" जैसे शब्द मौजूद हैं। मूलपाठ। सीएलपी का उद्देश्य व्यक्तियों के बारे में भविष्यवाणियां करना नहीं है, उदाहरण के लिए किसी व्यक्ति की पहचान में हेरफेर करके। अधिक विस्तृत चर्चा के लिए यह पेपर देखें।

यह ध्यान रखना महत्वपूर्ण है कि सीएलपी जिम्मेदार एआई टूलकिट में एक तकनीक है जिसे विशेष रूप से उस स्थिति को संबोधित करने के लिए डिज़ाइन किया गया है जहां सुविधाओं में संदर्भित संवेदनशील विशेषताएं भविष्यवाणी को बदल देती हैं। आपके मॉडल और उपयोग के मामले के आधार पर, यह विचार करना भी महत्वपूर्ण हो सकता है कि क्या ऐतिहासिक रूप से हाशिए के समूहों के लिए प्रदर्शन अंतराल हैं, विशेष रूप से सीएलपी समूह के प्रदर्शन को प्रभावित कर सकता है। इसका मूल्यांकन फेयरनेस इंडिकेटर्स के साथ किया जा सकता है और MinDiff द्वारा संबोधित किया जा सकता है जो कि TensorFlow मॉडल रेमेडिएशन लाइब्रेरी में भी है।

आपको यह भी विचार करना चाहिए कि क्या आपका उत्पाद मशीन सीखने के लिए उपयुक्त उपयोग है। यदि ऐसा है, तो आपके मशीन लर्निंग वर्कफ़्लो को ज्ञात अनुशंसित प्रथाओं जैसे कि एक अच्छी तरह से परिभाषित मॉडल कार्य और स्पष्ट उत्पाद आवश्यकताओं के लिए डिज़ाइन किया जाना चाहिए।

काउंटरफैक्टुअल लॉगिट पेयरिंग कैसे काम करती है?

सीएलपी मूल मॉडल में एक नुकसान जोड़ता है जो एक डेटासेट से एक मूल और प्रतितथ्यात्मक उदाहरण को जोड़कर प्रदान किया जाता है। दो मानों के बीच अंतर की गणना करके, आप उन संवेदनशील शब्दों के अंतर को दंडित करते हैं जो आपके क्लासिफायरियर भविष्यवाणी को बदलने का कारण बन रहे हैं। यह काम एडवरसैरियल लॉगिट पेयरिंग और काउंटरफैक्टुअल लॉगिट पेयरिंग पर शोध पर आधारित था।