Khi nào tôi nên sử dụng MinDiff?
Áp dụng MinDiff trong trường hợp mô hình của bạn nhìn chung hoạt động tốt nhưng lại tạo ra các lỗi có hại thường xuyên hơn trên các ví dụ thuộc nhóm nhạy cảm và bạn muốn thu hẹp khoảng cách về hiệu suất. Các nhóm lợi ích nhạy cảm có thể khác nhau tùy thuộc vào trường hợp sử dụng của bạn, nhưng thường bao gồm các nhóm được bảo vệ, chẳng hạn như chủng tộc, tôn giáo, giới tính, khuynh hướng tình dục, v.v. Trong suốt tài liệu này, chúng tôi sẽ sử dụng “nhóm nhạy cảm” để đề cập đến bất kỳ tập hợp ví dụ nào thuộc lớp được bảo vệ.
Có hai điều kiện chính để sử dụng MinDiff để giải quyết các phần dữ liệu hoạt động kém:
- Bạn đã điều chỉnh và đánh giá mô hình của mình, xác định các số liệu hiển thị các phần dữ liệu hoạt động kém. Điều này phải được thực hiện trước khi áp dụng biện pháp khắc phục mô hình.
- Bạn có hoặc có thể có được đủ số lượng ví dụ được gắn nhãn liên quan thuộc nhóm hoạt động kém hiệu quả (xem thêm chi tiết bên dưới).
MinDiff là một trong nhiều kỹ thuật khắc phục hành vi bất bình đẳng. Đặc biệt, đây có thể là một lựa chọn tốt khi bạn đang cố gắng cân bằng trực tiếp hiệu suất giữa các nhóm. MinDiff có thể được sử dụng kết hợp với các phương pháp khác, chẳng hạn như tăng cường dữ liệu và các phương pháp khác, có thể dẫn đến kết quả tốt hơn. Tuy nhiên, nếu cần ưu tiên đầu tư vào kỹ thuật nào thì bạn nên làm theo nhu cầu sản phẩm của mình.
Khi áp dụng MinDiff, bạn có thể thấy hiệu suất giảm sút hoặc thay đổi đôi chút đối với các nhóm hoạt động tốt nhất của mình khi các nhóm hoạt động kém hơn được cải thiện. Sự cân bằng này được mong đợi và cần được đánh giá trong bối cảnh yêu cầu sản phẩm của bạn. Trong thực tế, chúng ta thường thấy rằng MinDiff không làm cho các slice hoạt động tốt nhất giảm xuống dưới mức chấp nhận được, nhưng đây là tùy theo ứng dụng cụ thể và là quyết định cần được đưa ra bởi chủ sở hữu sản phẩm.
Tôi có thể áp dụng MinDiff trên những loại mô hình nào?
MinDiff đã được chứng minh là có hiệu quả nhất quán khi áp dụng cho các bộ phân loại nhị phân. Có thể điều chỉnh phương pháp này cho các ứng dụng khác nhưng chưa được thử nghiệm đầy đủ. Một số công việc đã được thực hiện để thể hiện sự thành công trong nhiệm vụ đa phân loại và xếp hạng 1 nhưng bất kỳ việc sử dụng MinDiff nào trên các loại mô hình này hoặc các loại mô hình khác đều phải được coi là thử nghiệm.
Tôi có thể áp dụng MinDiff trên những số liệu nào?
MinDiff có thể là giải pháp tốt khi số liệu bạn đang cố gắng cân bằng giữa các nhóm là tỷ lệ dương tính giả (FPR) hoặc tỷ lệ âm tính giả (FNR) , nhưng nó có thể hoạt động đối với các số liệu khác. Theo nguyên tắc chung, MinDiff có thể hoạt động khi số liệu bạn đang nhắm mục tiêu là kết quả của sự khác biệt trong phân bổ điểm giữa các ví dụ thuộc nhóm nhạy cảm và các ví dụ không thuộc nhóm nhạy cảm.
Xây dựng tập dữ liệu MinDiff của bạn
Khi chuẩn bị đào tạo với MinDiff, bạn sẽ cần chuẩn bị ba bộ dữ liệu riêng biệt. Giống như đào tạo thông thường, bộ dữ liệu MinDiff của bạn phải đại diện cho người dùng mà mô hình của bạn phục vụ. MinDiff có thể hoạt động mà không cần điều này nhưng bạn nên hết sức thận trọng trong những trường hợp như vậy.
Giả sử bạn đang cố gắng cải thiện FPR của mô hình của mình cho các ví dụ thuộc lớp nhạy cảm, bạn sẽ cần:
- Tập huấn luyện ban đầu - Tập dữ liệu ban đầu được sử dụng để huấn luyện mô hình cơ sở của bạn
- Bộ nhạy cảm MinDiff - Tập dữ liệu gồm các ví dụ thuộc lớp nhạy cảm chỉ có nhãn chân lý cơ bản phủ định. Những ví dụ này sẽ chỉ được sử dụng để tính toán tổn thất MinDiff.
- Bộ không nhạy cảm MinDiff - Tập dữ liệu gồm các ví dụ không thuộc lớp nhạy cảm chỉ có nhãn chân lý cơ bản phủ định. Những ví dụ này sẽ chỉ được sử dụng để tính toán tổn thất MinDiff.
Khi sử dụng thư viện, bạn sẽ kết hợp cả ba tập dữ liệu này thành một tập dữ liệu duy nhất, tập dữ liệu này sẽ đóng vai trò là tập huấn luyện mới của bạn.
Chọn ví dụ cho MinDiff
Trong ví dụ trên, việc tạo ra các tập hợp các ví dụ được gắn nhãn tiêu cực có vẻ phản trực giác nếu bạn chủ yếu quan tâm đến sự chênh lệch về tỷ lệ dương tính giả . Tuy nhiên, hãy nhớ rằng dự đoán dương tính giả xuất phát từ một ví dụ được gắn nhãn âm tính được phân loại không chính xác là dương tính.
Khi thu thập dữ liệu cho MinDiff, bạn nên chọn các ví dụ có sự chênh lệch rõ ràng về hiệu suất. Trong ví dụ của chúng tôi ở trên, điều này có nghĩa là chọn các ví dụ được gắn nhãn tiêu cực để giải quyết FPR. Nếu chúng tôi quan tâm đến việc nhắm mục tiêu FNR, chúng tôi sẽ cần phải chọn các ví dụ được gắn nhãn tích cực.
Tôi cần bao nhiêu dữ liệu?
Câu hỏi hay--nó phụ thuộc vào trường hợp sử dụng của bạn! Dựa trên kiến trúc mô hình, phân phối dữ liệu và cấu hình MinDiff của bạn, lượng dữ liệu cần thiết có thể thay đổi đáng kể. Trong các ứng dụng trước đây, chúng tôi đã thấy MinDiff hoạt động tốt với 5.000 ví dụ trong mỗi tập huấn luyện MinDiff (bộ 2 và 3 trong phần trước). Với ít dữ liệu hơn, nguy cơ giảm hiệu suất sẽ tăng lên, nhưng điều này có thể ở mức tối thiểu hoặc có thể chấp nhận được trong giới hạn ràng buộc sản xuất của bạn. Sau khi áp dụng MinDiff, bạn sẽ cần đánh giá kỹ kết quả của mình để đảm bảo hiệu suất có thể chấp nhận được. Nếu chúng không đáng tin cậy hoặc không đáp ứng được kỳ vọng về hiệu suất, bạn vẫn có thể cân nhắc việc thu thập thêm dữ liệu.
Khi nào MinDiff không phù hợp với tôi?
MinDiff là một kỹ thuật mạnh mẽ có thể mang lại kết quả ấn tượng, nhưng điều này không có nghĩa là nó là phương pháp phù hợp cho mọi tình huống. Áp dụng nó một cách bừa bãi không đảm bảo rằng bạn sẽ đạt được một giải pháp thích hợp.
Ngoài các yêu cầu được thảo luận ở trên, có những trường hợp MinDiff có thể khả thi về mặt kỹ thuật nhưng không phù hợp. Bạn phải luôn thiết kế quy trình làm việc ML của mình theo các phương pháp được đề xuất đã biết. Ví dụ: nếu nhiệm vụ mô hình của bạn không được xác định rõ ràng, sản phẩm cần không rõ ràng hoặc nhãn mẫu của bạn quá lệch, bạn nên ưu tiên giải quyết những vấn đề này. Tương tự, nếu bạn không có định nghĩa rõ ràng về nhóm nhạy cảm hoặc không thể xác định một cách đáng tin cậy liệu các ví dụ có thuộc nhóm nhạy cảm hay không thì bạn sẽ không thể áp dụng MinDiff một cách hiệu quả.
Ở cấp độ cao hơn, bạn phải luôn xem xét liệu sản phẩm của mình có phải là cách sử dụng phù hợp cho ML hay không. Nếu đúng như vậy, hãy xem xét các nguy cơ tiềm ẩn gây hại cho người dùng mà nó tạo ra. Việc theo đuổi ML có trách nhiệm là một nỗ lực nhiều mặt nhằm dự đoán một loạt các tác hại tiềm tàng; MinDiff có thể giúp giảm thiểu một số vấn đề này, nhưng tất cả các kết quả đều đáng được xem xét cẩn thận.
1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). Tính công bằng trong xếp hạng khuyến nghị thông qua so sánh theo cặp.