วัดความเป็นส่วนตัว

ความเป็นส่วนตัวที่แตกต่างกันคือกรอบงานสำหรับการวัดการรับประกันความเป็นส่วนตัวที่จัดเตรียมโดยอัลกอริทึม และสามารถแสดงได้โดยใช้ค่า ε (epsilon) และ δ (เดลต้า) จากทั้งสอง ε มีความสำคัญและไวต่อการเลือกพารามิเตอร์ไฮเปอร์พารามิเตอร์มากกว่า กล่าวโดยคร่าว ๆ พวกเขาหมายถึงต่อไปนี้:

  • ε ให้เพดานว่าความน่าจะเป็นของผลลัพธ์เฉพาะจะเพิ่มขึ้นได้มากเพียงใด โดยการรวม (หรือลบ) ตัวอย่างการฝึกอบรมเดียว คุณต้องการให้เป็นค่าคงที่เล็กน้อย (น้อยกว่า 10 หรือสำหรับการรับประกันความเป็นส่วนตัวที่เข้มงวดมากขึ้น น้อยกว่า 1) อย่างไรก็ตาม นี่เป็นเพียงขอบเขตบน และค่า epsilon จำนวนมากอาจยังหมายถึงความเป็นส่วนตัวที่ดีในทางปฏิบัติ
  • δ กำหนดขอบเขตความน่าจะเป็นของการเปลี่ยนแปลงพฤติกรรมของแบบจำลองตามอำเภอใจ โดยปกติคุณสามารถตั้งค่านี้เป็นตัวเลขที่น้อยมาก (1e-7 หรือมากกว่านั้น) โดยไม่กระทบต่อยูทิลิตี้ หลักการทั่วไปคือตั้งค่าให้น้อยกว่าค่าผกผันของขนาดข้อมูลการฝึก

ความสัมพันธ์ระหว่างไฮเปอร์พารามิเตอร์การฝึกกับความเป็นส่วนตัวที่เกิดขึ้นในแง่ของ (ε, δ) นั้นซับซ้อนและยากที่จะระบุอย่างชัดเจน วิธีการที่เราแนะนำในปัจจุบันอยู่ที่ด้านล่างของ หน้าเริ่มต้น ซึ่งเกี่ยวข้องกับการค้นหาตัวคูณสัญญาณรบกวนสูงสุดที่สามารถใช้ได้ในขณะที่ยังมียูทิลิตี้ที่เหมาะสม จากนั้นจึงปรับขนาดตัวคูณสัญญาณรบกวนและจำนวนไมโครแบตช์ TensorFlow Privacy มอบเครื่องมือ compute_dp_sgd_privacy ในการคำนวณ (ε, δ) โดยอิงจากตัวคูณสัญญาณรบกวน σ จำนวนขั้นตอนการฝึกที่ดำเนินการ และเศษส่วนของข้อมูลอินพุตที่ใช้ในแต่ละขั้นตอน ปริมาณความเป็นส่วนตัวจะเพิ่มขึ้นด้วยตัวคูณสัญญาณรบกวน σ และลดจำนวนครั้งที่ข้อมูลถูกใช้ในการฝึกมากขึ้น โดยทั่วไป เพื่อให้ได้เอปไซลอนสูงสุด 10.0 เราจำเป็นต้องตั้งค่าตัวคูณสัญญาณรบกวนเป็นประมาณ 0.3 ถึง 0.5 ขึ้นอยู่กับขนาดชุดข้อมูลและจำนวนยุค ดู บทแนะนำความเป็นส่วนตัวของการจัดหมวดหมู่ เพื่อดูแนวทาง

สำหรับรายละเอียดเพิ่มเติม โปรดดู เอกสารต้นฉบับ DP-SGD

คุณสามารถใช้ compute_dp_sgd_privacy เพื่อค้นหา epsilon ที่ได้รับค่าเดลต้าคงที่สำหรับโมเดลของคุณ [../tutorials/classification_privacy.ipynb]:

  • q : อัตราส่วนการสุ่มตัวอย่าง - ความน่าจะเป็นของจุดการฝึกอบรมแต่ละรายการที่รวมอยู่ในชุดย่อย ( batch_size/number_of_examples )
  • noise_multiplier : ทุ่นลอยที่ควบคุมปริมาณเสียงรบกวนที่เพิ่มระหว่างการฝึก โดยทั่วไป เสียงรบกวนที่มากขึ้นส่งผลให้เกิดความเป็นส่วนตัวที่ดีขึ้นและอรรถประโยชน์ที่ต่ำลง
  • steps : จำนวนก้าวทั่วโลกที่ดำเนินการ

การเขียนรายละเอียดของทฤษฎีที่อยู่เบื้องหลังการคำนวณของเอปซิลอนและเดลต้ามีอยู่ที่ Differential Privacy ของ Sampled Gaussian Mechanism