Ghép nối logit phản thực để khắc phục mô hình

Ghép nối nhật ký phản thực tế (CLP) là một kỹ thuật trong Thư viện khắc phục mô hình TensorFlow nhằm tìm cách đảm bảo rằng dự đoán của mô hình không thay đổi khi thuộc tính nhạy cảm được tham chiếu trong một ví dụ bị xóa hoặc thay thế. Ví dụ: trong bộ phân loại độc tính, các ví dụ như "Tôi là đàn ông" và "Tôi là đồng tính nữ" không được có dự đoán khác về độc tính.

Để thảo luận sâu hơn về chủ đề này, hãy xem nghiên cứu về tính công bằng phản thực tế , ghép cặp logit đối nghịchghép cặp logit phản thực tế .

Khi nào bạn nên sử dụng Ghép nối logit phản thực?

CLP giải quyết tình huống trong đó một thay đổi trong thuộc tính nhạy cảm được tham chiếu trong một đối tượng sẽ làm thay đổi dự đoán (khi lẽ ra dự đoán không nên thay đổi). Khi làm như vậy, nó cố gắng trả lời câu hỏi: Mô hình này có dễ bị thay đổi dự đoán chỉ dựa trên sự hiện diện của thuộc tính nhận dạng không? Xem tài liệu nghiên cứu để biết chi tiết về tính công bằng trong phản thực tế.

Vấn đề này đã được phát hiện trong Perspective API , một công cụ ML được các nhà phát triển và nhà xuất bản sử dụng để phân tích nội dung nhận xét về văn bản có khả năng gây khó chịu hoặc độc hại . API phối cảnh lấy văn bản nhận xét làm đầu vào và trả về điểm từ 0 đến 1 làm dấu hiệu cho thấy khả năng nhận xét đó là độc hại. Ví dụ: một nhận xét như “Bạn là một tên ngốc” có thể nhận được điểm xác suất là 0,8 cho mức độ độc hại, cho biết khả năng người đọc cho rằng nhận xét đó là độc hại.

Sau lần ra mắt đầu tiên của Perspective API, người dùng bên ngoài đã phát hiện ra mối tương quan tích cực giữa các thuật ngữ nhận dạng chứa thông tin về chủng tộc hoặc khuynh hướng tình dục và điểm độc tính được dự đoán. Ví dụ: cụm từ "Tôi là đồng tính nữ" nhận được điểm 0,51, trong khi "Tôi là đàn ông" nhận được điểm thấp hơn là 0,2. Trong trường hợp này, các thuật ngữ nhận dạng không được sử dụng theo cách miệt thị, do đó sẽ không có sự khác biệt đáng kể về điểm số. Để biết thêm thông tin về API phối cảnh, hãy xem bài đăng trên blog về các thuật ngữ nhận dạng và thiên vị ngoài ý muốn .

Làm cách nào tôi có thể đo lường tác động của việc Ghép nối logit phản thực?

Nếu bạn đã đánh giá mô hình học máy của mình và xác định rằng những thay đổi trong dự đoán do thay đổi các thuộc tính nhạy cảm cụ thể sẽ có hại thì bạn nên đo lường mức độ phổ biến của vấn đề này. Trong trường hợp bộ phân loại nhị phân hoặc nhiều lớp, một lần lật được định nghĩa là một bộ phân loại đưa ra quyết định khác (chẳng hạn như thay đổi dự đoán từ độc hại sang không độc hại) khi thuộc tính nhạy cảm được tham chiếu trong ví dụ thay đổi. Khi đánh giá mức độ phổ biến của các lần lật , bạn có thể nhìn vào số lần lậttỷ lệ lật . Bằng cách tính đến tổn hại tiềm tàng cho người dùng do một lần lật và tần suất xảy ra các lần lật, bạn có thể xác định xem đây có phải là sự cố cần giải quyết hay không bằng cách áp dụng CLP. Để biết thêm thông tin về các số liệu này, hãy tham khảo hướng dẫn về Chỉ số công bằng .

Tôi có thể áp dụng Ghép nối logit phản thực trên những loại mô hình nào?

Kỹ thuật này có thể được sử dụng với các bộ phân loại nhị phân và nhiều lớp cho các loại dữ liệu khác nhau như văn bản, hình ảnh và video.

Khi nào việc ghép nối logit phản thực không phù hợp với tôi?

CLP không phải là phương pháp phù hợp cho mọi tình huống. Ví dụ: sẽ không liên quan nếu sự hiện diện hay vắng mặt của thuật ngữ nhận dạng làm thay đổi chính xác dự đoán của bộ phân loại. Đây có thể là trường hợp nếu trình phân loại nhằm mục đích xác định xem đối tượng địa lý có đang tham chiếu đến một nhóm nhận dạng cụ thể hay không. Phương pháp này cũng ít tác động hơn nếu mối tương quan ngoài ý muốn giữa kết quả phân loại và nhóm nhận dạng không có tác động tiêu cực đến người dùng.

CLP rất hữu ích để kiểm tra xem mô hình ngôn ngữ hoặc trình phân loại độc tính có đang thay đổi kết quả đầu ra của nó theo cách không công bằng hay không (ví dụ: phân loại một đoạn văn bản là độc hại) chỉ vì các thuật ngữ như “Da đen”, “đồng tính nam”, “Hồi giáo” có trong chữ. CLP không nhằm mục đích đưa ra dự đoán về các cá nhân, chẳng hạn như bằng cách thao túng danh tính của một cá nhân. Xem bài viết này để thảo luận chi tiết hơn.

Điều quan trọng cần lưu ý là CLP là một kỹ thuật trong Bộ công cụ AI có trách nhiệm được thiết kế đặc biệt để giải quyết tình huống trong đó các thuộc tính nhạy cảm được tham chiếu trong các tính năng làm thay đổi dự đoán. Tùy thuộc vào mô hình và trường hợp sử dụng của bạn, điều quan trọng là phải xem xét liệu có khoảng cách về hiệu suất đối với các nhóm bị thiệt thòi trong lịch sử hay không, đặc biệt vì CLP có thể ảnh hưởng đến hiệu suất của nhóm. Điều này có thể được đánh giá bằng Chỉ báo công bằng và được giải quyết bởi MinDiff cũng có trong Thư viện khắc phục mô hình TensorFlow.

Bạn cũng nên xem xét liệu sản phẩm của bạn có phù hợp để sử dụng cho máy học hay không. Nếu đúng như vậy, quy trình học máy của bạn phải được thiết kế theo các phương pháp được đề xuất đã biết, chẳng hạn như có nhiệm vụ mô hình được xác định rõ ràng và nhu cầu sản phẩm rõ ràng.

Việc ghép nối logit phản thực hoạt động như thế nào?

CLP bổ sung thêm tổn thất cho mô hình ban đầu được cung cấp bằng cách logit ghép một ví dụ gốc và phản thực tế từ một tập dữ liệu. Bằng cách tính toán sự khác biệt giữa hai giá trị, bạn sẽ loại trừ sự khác biệt của các thuật ngữ nhạy cảm đang khiến dự đoán của bộ phân loại của bạn thay đổi. Công trình này dựa trên nghiên cứu về ghép cặp logit đối nghịchghép cặp logit phản thực .