डिफरेंशियल प्राइवेसी एक एल्गोरिथम द्वारा प्रदान की गई गोपनीयता गारंटी को मापने के लिए एक ढांचा है और इसे (एप्सिलॉन) और δ (डेल्टा) मानों का उपयोग करके व्यक्त किया जा सकता है। दोनों में से हाइपरपैरामीटर के चुनाव के प्रति अधिक महत्वपूर्ण और अधिक संवेदनशील है। मोटे तौर पर, उनका मतलब निम्नलिखित है:
- एक प्रशिक्षण उदाहरण को शामिल करने (या हटाने) से किसी विशेष आउटपुट की संभावना कितनी बढ़ सकती है, इस पर एक छत देता है। आप आमतौर पर चाहते हैं कि यह एक छोटा स्थिरांक हो (10 से कम, या अधिक सख्त गोपनीयता गारंटी के लिए, 1 से कम)। हालांकि, यह केवल एक ऊपरी सीमा है, और एप्सिलॉन का एक बड़ा मूल्य अभी भी अच्छी व्यावहारिक गोपनीयता का मतलब हो सकता है।
- मॉडल व्यवहार में मनमाना परिवर्तन की संभावना को सीमित करता है। आप आमतौर पर उपयोगिता से समझौता किए बिना इसे बहुत छोटी संख्या (1e-7 या तो) पर सेट कर सकते हैं। अंगूठे का एक नियम इसे प्रशिक्षण डेटा आकार के व्युत्क्रम से कम पर सेट करना है।
(ε, ) के संदर्भ में प्रशिक्षण हाइपरपैरामीटर और परिणामी गोपनीयता के बीच संबंध स्पष्ट रूप से बताने के लिए जटिल और मुश्किल है। हमारा वर्तमान अनुशंसित दृष्टिकोण गेट स्टार्टेड पेज के निचले भाग में है, जिसमें अधिकतम शोर गुणक ढूंढना शामिल है जिसका उपयोग उचित उपयोगिता होने पर भी किया जा सकता है, और फिर शोर गुणक और माइक्रोबैच की संख्या को स्केल करना शामिल है। TensorFlow गोपनीयता शोर गुणक σ, उठाए गए प्रशिक्षण कदमों की संख्या और प्रत्येक चरण में खपत किए गए इनपुट डेटा के अंश के आधार पर गणना करने के लिए एक उपकरण, compute_dp_sgd_privacy
(ε, ) प्रदान करता है। गोपनीयता की मात्रा शोर गुणक के साथ बढ़ जाती है और प्रशिक्षण पर डेटा का अधिक बार उपयोग किया जाता है। आम तौर पर, अधिकतम 10.0 का एप्सिलॉन प्राप्त करने के लिए, हमें डेटासेट आकार और युगों की संख्या के आधार पर शोर गुणक को लगभग 0.3 से 0.5 पर सेट करने की आवश्यकता होती है। दृष्टिकोण देखने के लिए वर्गीकरण गोपनीयता ट्यूटोरियल देखें।
अधिक विवरण के लिए, मूल डीपी-एसजीडी पेपर देखें।
आप अपने मॉडल [../tutorials/classification_privacy.ipynb] के लिए एक निश्चित डेल्टा मान दिए गए एप्सिलॉन का पता लगाने के लिए compute_dp_sgd_privacy
का उपयोग कर सकते हैं:
-
q
: नमूना अनुपात - एक मिनी बैच (batch_size/number_of_examples
) में एक व्यक्तिगत प्रशिक्षण बिंदु को शामिल करने की संभावना। -
noise_multiplier
: एक फ्लोट जो प्रशिक्षण के दौरान जोड़े गए शोर की मात्रा को नियंत्रित करता है। आम तौर पर, अधिक शोर के परिणामस्वरूप बेहतर गोपनीयता और कम उपयोगिता होती है। -
steps
: उठाए गए वैश्विक कदमों की संख्या।
एप्सिलॉन और डेल्टा की गणना के पीछे के सिद्धांत का विस्तृत लेखन नमूना गाऊसी तंत्र की विभेदक गोपनीयता पर उपलब्ध है।