Các Chỉ số Công bằng: Suy nghĩ về Đánh giá Công bằng

Chỉ số công bằng là một công cụ hữu ích để đánh giá tính công bằng của các bộ phân loại nhị phânnhiều lớp . Cuối cùng, chúng tôi hy vọng sẽ mở rộng công cụ này, hợp tác với tất cả các bạn, để đánh giá nhiều điều cần cân nhắc hơn nữa.

Hãy nhớ rằng đánh giá định lượng chỉ là một phần trong việc đánh giá trải nghiệm người dùng rộng hơn. Bắt đầu bằng cách suy nghĩ về các bối cảnh khác nhau mà người dùng có thể trải nghiệm sản phẩm của bạn. Những loại người dùng khác nhau mà sản phẩm của bạn dự kiến ​​sẽ phục vụ là ai? Những ai khác có thể bị ảnh hưởng bởi trải nghiệm này?

Khi xem xét tác động của AI đối với con người, điều quan trọng cần phải luôn nhớ là xã hội loài người vô cùng phức tạp! Hiểu con người và bản sắc xã hội, cấu trúc xã hội và hệ thống văn hóa của họ đều là những lĩnh vực nghiên cứu mở rộng lớn theo đúng nghĩa của chúng. Thêm vào đó là sự phức tạp của những khác biệt giữa các nền văn hóa trên toàn cầu và thậm chí việc tìm hiểu tác động xã hội cũng có thể là một thách thức. Bất cứ khi nào có thể, bạn nên tham khảo ý kiến ​​của các chuyên gia trong lĩnh vực thích hợp, có thể bao gồm các nhà khoa học xã hội, nhà ngôn ngữ học xã hội và nhà nhân chủng học văn hóa, cũng như với các thành viên của cộng đồng nơi công nghệ sẽ được triển khai.

Ví dụ: một mô hình duy nhất, mô hình độc tính mà chúng tôi tận dụng trong ví dụ colab , có thể được sử dụng trong nhiều bối cảnh khác nhau. Ví dụ: một mô hình độc tính được triển khai trên một trang web để lọc các bình luận xúc phạm là một trường hợp sử dụng rất khác so với mô hình đang được triển khai trong một giao diện người dùng web mẫu nơi người dùng có thể nhập một câu và xem mô hình cho điểm bao nhiêu. Tùy thuộc vào trường hợp sử dụng và cách người dùng trải nghiệm dự đoán mô hình, sản phẩm của bạn sẽ có những rủi ro, tác động và cơ hội khác nhau và bạn có thể muốn đánh giá các mối lo ngại về tính công bằng khác nhau.

Các câu hỏi trên là nền tảng của những cân nhắc về mặt đạo đức, bao gồm cả tính công bằng, mà bạn có thể muốn tính đến khi thiết kế và phát triển sản phẩm dựa trên ML của mình. Những câu hỏi này cũng thúc đẩy những số liệu và nhóm người dùng nào bạn nên sử dụng công cụ để đánh giá.

Trước khi đi sâu hơn, đây là ba tài nguyên được đề xuất để bắt đầu:

  • Sách hướng dẫn Con người + AI dành cho thiết kế AI lấy con người làm trung tâm: Sách hướng dẫn này là nguồn tài nguyên tuyệt vời cho các câu hỏi và khía cạnh cần lưu ý khi thiết kế một sản phẩm dựa trên máy học. Mặc dù chúng tôi tạo ra cuốn sách hướng dẫn này với mục đích hướng tới các nhà thiết kế nhưng nhiều nguyên tắc sẽ giúp trả lời các câu hỏi giống như câu hỏi đã đặt ra ở trên.
  • Bài học rút ra về tính công bằng của chúng tôi : Buổi nói chuyện này tại Google I/O thảo luận về những bài học chúng tôi đã học được trong mục tiêu xây dựng và thiết kế các sản phẩm toàn diện.
  • Khóa học sự cố ML: Tính công bằng : Khóa học sự cố ML có một phần dài 70 phút dành riêng cho việc xác định và đánh giá các mối quan ngại về tính công bằng

Vì vậy, tại sao lại nhìn vào từng lát cắt riêng lẻ? Việc đánh giá từng phần riêng lẻ rất quan trọng vì các số liệu tổng thể mạnh có thể che khuất hiệu suất kém của một số nhóm nhất định. Tương tự, hoạt động tốt cho một số liệu nhất định (độ chính xác, AUC) không phải lúc nào cũng chuyển thành hiệu suất có thể chấp nhận được đối với các số liệu khác (tỷ lệ dương tính giả, tỷ lệ âm tính giả) có tầm quan trọng không kém trong việc đánh giá cơ hội và tác hại cho người dùng.

Các phần dưới đây sẽ đi qua một số khía cạnh cần xem xét.

Tôi nên chia theo nhóm nào?

Nói chung, một cách thực hành tốt là chia thành nhiều nhóm có thể bị ảnh hưởng bởi sản phẩm của bạn, vì bạn không bao giờ biết khi nào hiệu suất có thể khác nhau đối với một trong các nhóm kia. Tuy nhiên, nếu bạn không chắc chắn, hãy nghĩ đến những người dùng khác nhau có thể tương tác với sản phẩm của bạn và họ có thể bị ảnh hưởng như thế nào. Đặc biệt, hãy xem xét các lát cắt liên quan đến các đặc điểm nhạy cảm như chủng tộc, dân tộc, giới tính, quốc tịch, thu nhập, khuynh hướng tình dục và tình trạng khuyết tật.

Điều gì sẽ xảy ra nếu tôi không có nhãn dữ liệu cho các lát cắt mà tôi muốn điều tra?

Câu hỏi hay. Chúng tôi biết rằng nhiều bộ dữ liệu không có nhãn xác thực cho các thuộc tính nhận dạng riêng lẻ.

Nếu bạn thấy mình ở vị trí này, chúng tôi đề xuất một số cách tiếp cận:

  1. Xác định xem liệu bạn những thuộc tính nào có thể giúp bạn hiểu rõ hơn về hiệu suất giữa các nhóm hay không. Ví dụ: địa lý mặc dù không tương đương với sắc tộc và chủng tộc nhưng có thể giúp bạn phát hiện ra bất kỳ mô hình khác biệt nào trong hiệu suất
  2. Xác định xem có bộ dữ liệu công khai đại diện nào có thể phù hợp với vấn đề của bạn hay không. Bạn có thể tìm thấy nhiều tập dữ liệu đa dạng và toàn diện trên trang web Google AI , bao gồm Tôn trọng dự án , Hình ảnh toàn diệnHình ảnh mở được mở rộng , cùng với các tập dữ liệu khác.
  3. Tận dụng các quy tắc hoặc bộ phân loại, khi thích hợp, để gắn nhãn dữ liệu của bạn với các thuộc tính cấp độ bề mặt khách quan. Ví dụ: bạn có thể gắn nhãn văn bản để biết liệu có thuật ngữ nhận dạng trong câu hay không. Hãy nhớ rằng các bộ phân loại có những thách thức riêng và nếu bạn không cẩn thận, bạn cũng có thể tạo ra một lớp sai lệch khác. Hãy rõ ràng về những gì bộ phân loại của bạn thực sự đang phân loại. Ví dụ: bộ phân loại độ tuổi trên hình ảnh trên thực tế đang phân loại độ tuổi được cảm nhận . Ngoài ra, khi có thể, hãy tận dụng các thuộc tính cấp độ bề mặt có thể được xác định một cách khách quan trong dữ liệu. Ví dụ: không nên xây dựng bộ phân loại hình ảnh cho chủng tộc hoặc sắc tộc vì đây không phải là những đặc điểm hình ảnh có thể được xác định trong một hình ảnh. Một bộ phân loại có thể sẽ nhận ra các proxy hoặc khuôn mẫu. Thay vào đó, xây dựng bộ phân loại theo tông màu da có thể là cách thích hợp hơn để gắn nhãn và đánh giá hình ảnh. Cuối cùng, đảm bảo độ chính xác cao cho các bộ phân loại gắn nhãn cho các thuộc tính đó.
  4. Tìm thêm dữ liệu đại diện được gắn nhãn

Luôn đảm bảo đánh giá trên nhiều bộ dữ liệu đa dạng.

Nếu dữ liệu đánh giá của bạn không đại diện đầy đủ cho cơ sở người dùng của bạn hoặc các loại dữ liệu có thể gặp phải, thì bạn có thể đạt được các số liệu công bằng có vẻ tốt. Tương tự, hiệu suất mô hình cao trên một tập dữ liệu không đảm bảo hiệu suất cao trên các tập dữ liệu khác.

Hãy nhớ rằng các nhóm nhỏ không phải lúc nào cũng là cách tốt nhất để phân loại các cá nhân.

Con người đa chiều và thuộc nhiều nhóm, thậm chí trong một chiều duy nhất - hãy xem xét một người là đa chủng tộc hoặc thuộc nhiều nhóm chủng tộc. Ngoài ra, mặc dù số liệu tổng thể cho một nhóm chủng tộc nhất định có thể trông công bằng, nhưng các tương tác cụ thể, chẳng hạn như chủng tộc và giới tính với nhau có thể cho thấy sự thiên vị ngoài ý muốn. Hơn nữa, nhiều nhóm con có ranh giới mờ liên tục được vẽ lại.

Khi nào tôi đã kiểm tra đủ lát và làm cách nào để biết nên kiểm tra lát nào?

Chúng tôi thừa nhận rằng có rất nhiều nhóm hoặc phần có thể liên quan để thử nghiệm và khi có thể, chúng tôi khuyên bạn nên chia nhỏ và đánh giá nhiều phần hoặc phần đa dạng, sau đó đi sâu vào nơi bạn phát hiện ra các cơ hội cải tiến. Điều quan trọng nữa là phải thừa nhận rằng mặc dù bạn có thể không thấy lo ngại về các lát cắt mà bạn đã thử nghiệm nhưng điều đó không có nghĩa là sản phẩm của bạn phù hợp với tất cả người dùng và việc nhận được phản hồi cũng như thử nghiệm đa dạng của người dùng là điều quan trọng để đảm bảo rằng bạn liên tục xác định các sản phẩm mới. những cơ hội.

Để bắt đầu, chúng tôi khuyên bạn nên suy nghĩ kỹ về trường hợp sử dụng cụ thể của mình và những cách khác nhau mà người dùng có thể tương tác với sản phẩm của bạn. Những người dùng khác nhau có thể có trải nghiệm khác nhau như thế nào? Điều đó có ý nghĩa gì đối với các lát cắt bạn nên đánh giá? Việc thu thập phản hồi từ nhiều người dùng khác nhau cũng có thể làm nổi bật các phần tiềm năng cần ưu tiên.

Tôi nên chọn số liệu nào?

Khi chọn số liệu nào để đánh giá cho hệ thống của bạn, hãy xem xét ai sẽ trải nghiệm mô hình của bạn, trải nghiệm sẽ như thế nào và tác động của trải nghiệm đó.

Ví dụ: làm thế nào để mô hình của bạn mang lại cho mọi người nhiều phẩm giá hoặc quyền tự chủ hơn hoặc tác động tích cực đến sức khỏe tình cảm, thể chất hoặc tài chính của họ? Ngược lại, làm thế nào những dự đoán trong mô hình của bạn có thể làm giảm phẩm giá hoặc quyền tự chủ của con người hoặc tác động tiêu cực đến sức khỏe tình cảm, thể chất hoặc tài chính của họ?

Nói chung, chúng tôi khuyên bạn nên chia nhỏ tất cả các chỉ số hiệu suất hiện có của mình thành một phương pháp hay. Chúng tôi cũng khuyên bạn nên đánh giá các chỉ số của mình qua nhiều ngưỡng để hiểu ngưỡng này có thể ảnh hưởng như thế nào đến hiệu suất của các nhóm khác nhau.

Ngoài ra, nếu có một nhãn được dự đoán là "tốt" hoặc "xấu" đồng nhất, thì hãy xem xét báo cáo (cho từng nhóm con) tốc độ mà nhãn đó được dự đoán. Ví dụ: nhãn “tốt” sẽ là nhãn có dự đoán cho phép một người truy cập vào một số tài nguyên hoặc cho phép họ thực hiện một số hành động.

Số liệu công bằng quan trọng để phân loại

Khi nghĩ về một mô hình phân loại, hãy nghĩ đến tác động của sai sót (sự khác biệt giữa nhãn “sự thật cơ bản” thực tế và nhãn từ mô hình). Nếu một số lỗi có thể gây ra nhiều cơ hội hoặc gây hại cho người dùng của bạn, hãy đảm bảo bạn đánh giá tỷ lệ các lỗi này trong các nhóm người dùng. Các tỷ lệ lỗi này được xác định bên dưới, trong các số liệu hiện được hỗ trợ bởi phiên bản beta Chỉ báo Công bằng.

Trong năm tới, chúng tôi hy vọng sẽ phát hành các nghiên cứu điển hình về các trường hợp sử dụng khác nhau và các số liệu liên quan đến những trường hợp này để chúng tôi có thể nêu bật rõ hơn thời điểm các số liệu khác nhau có thể phù hợp nhất.

Các số liệu hiện có trong Chỉ số công bằng

Tỷ Lệ Dương/Tỷ Lệ Âm

  • Định nghĩa: Tỷ lệ phần trăm điểm dữ liệu được phân loại là tích cực hoặc tiêu cực, không phụ thuộc vào sự thật cơ bản
  • Liên quan đến: Sự bình đẳng về nhân khẩu học và sự bình đẳng về kết quả, khi các phân nhóm đều bình đẳng
  • Khi nào nên sử dụng số liệu này: Các trường hợp sử dụng công bằng trong đó việc có tỷ lệ phần trăm cuối cùng của các nhóm bằng nhau là quan trọng

Tỷ lệ dương tính thật / Tỷ lệ âm tính giả

  • Định nghĩa: Tỷ lệ phần trăm điểm dữ liệu tích cực (như được gắn nhãn trong sự thật cơ bản) được phân loại chính xác là tích cực hoặc tỷ lệ phần trăm điểm dữ liệu tích cực được phân loại không chính xác là tiêu cực
  • Liên quan đến: Bình đẳng về Cơ hội (đối với lớp tích cực), khi các phân nhóm đều bình đẳng
  • Khi nào nên sử dụng số liệu này: Các trường hợp sử dụng công bằng trong đó điều quan trọng là phải có cùng % ứng viên đủ điều kiện được đánh giá tích cực trong mỗi nhóm. Điều này thường được đề xuất nhất trong các trường hợp phân loại kết quả tích cực, chẳng hạn như đơn xin vay vốn, tuyển sinh vào trường hoặc liệu nội dung có thân thiện với trẻ em hay không

Tỷ lệ âm tính thật / Tỷ lệ dương tính giả

  • Định nghĩa: Tỷ lệ phần trăm điểm dữ liệu tiêu cực (như được gắn nhãn trong sự thật cơ bản) được phân loại chính xác là tiêu cực hoặc tỷ lệ phần trăm điểm dữ liệu tiêu cực được phân loại không chính xác thành tích cực
  • Liên quan đến: Bình đẳng về Cơ hội (đối với lớp phủ định), khi các phân nhóm đều bình đẳng
  • Khi nào nên sử dụng số liệu này: Các trường hợp sử dụng công bằng trong đó tỷ lệ lỗi (hoặc phân loại sai nội dung nào đó là tích cực) đáng lo ngại hơn là phân loại mặt tích cực. Điều này phổ biến nhất trong các trường hợp lạm dụng, trong đó những điều tích cực thường dẫn đến những hành động tiêu cực. Những điều này cũng quan trọng đối với Công nghệ phân tích khuôn mặt như nhận diện khuôn mặt hoặc thuộc tính khuôn mặt.

Độ chính xác & AUC

  • Liên quan đến: Tính chẵn lẻ dự đoán, khi các nhóm con bằng nhau
  • Khi nào nên sử dụng các số liệu này: Các trường hợp trong đó độ chính xác của tác vụ là quan trọng nhất (không nhất thiết phải theo một hướng nhất định), chẳng hạn như nhận dạng khuôn mặt hoặc phân cụm khuôn mặt

Tỷ lệ khám phá sai

  • Định nghĩa: Tỷ lệ phần trăm các điểm dữ liệu tiêu cực (như được gắn nhãn trong sự thật cơ bản) được phân loại không chính xác thành tích cực trong số tất cả các điểm dữ liệu được phân loại là tích cực. Đây cũng là nghịch đảo của PPV
  • Liên quan đến: Tính chẵn lẻ dự đoán (còn được gọi là Hiệu chuẩn), khi các nhóm con bằng nhau
  • Khi nào nên sử dụng số liệu này: Các trường hợp trong đó tỷ lệ dự đoán dương chính xác phải bằng nhau giữa các nhóm con

Tỷ lệ bỏ sót sai

  • Định nghĩa: Tỷ lệ phần trăm các điểm dữ liệu tích cực (như được gắn nhãn trong sự thật cơ bản) được phân loại sai thành tiêu cực trong số tất cả các điểm dữ liệu được phân loại là tiêu cực. Đây cũng là nghịch đảo của NPV
  • Liên quan đến: Tính chẵn lẻ dự đoán (còn được gọi là Hiệu chuẩn), khi các nhóm con bằng nhau
  • Khi nào nên sử dụng số liệu này: Các trường hợp trong đó tỷ lệ dự đoán phủ định chính xác phải bằng nhau giữa các nhóm con

Tỷ lệ lật tổng thể / Tỷ lệ lật dự đoán từ tích cực sang tiêu cực / Tỷ lệ lật dự đoán từ tiêu cực sang tích cực

  • Định nghĩa: Xác suất mà bộ phân loại đưa ra dự đoán khác nếu thuộc tính nhận dạng trong một đối tượng nhất định bị thay đổi.
  • Liên quan đến: Sự công bằng phản thực tế
  • Khi nào nên sử dụng số liệu này: Khi xác định xem dự đoán của mô hình có thay đổi hay không khi các thuộc tính nhạy cảm được tham chiếu trong ví dụ bị xóa hoặc thay thế. Nếu đúng như vậy, hãy cân nhắc sử dụng kỹ thuật Ghép nối logit phản thực trong thư viện Khắc phục mô hình Tensorflow.

Số lần lật / Số lần lật dự đoán dương sang âm / Số lần lật dự đoán từ âm sang dương *

  • Định nghĩa: Số lần bộ phân loại đưa ra một dự đoán khác nếu thuật ngữ nhận dạng trong một ví dụ nhất định bị thay đổi.
  • Liên quan đến: Sự công bằng phản thực tế
  • Khi nào nên sử dụng số liệu này: Khi xác định xem dự đoán của mô hình có thay đổi hay không khi các thuộc tính nhạy cảm được tham chiếu trong ví dụ bị xóa hoặc thay thế. Nếu đúng như vậy, hãy cân nhắc sử dụng kỹ thuật Ghép nối logit phản thực trong thư viện Khắc phục mô hình Tensorflow.

Ví dụ về số liệu cần chọn

  • Việc không phát hiện được khuôn mặt trong ứng dụng máy ảnh một cách có hệ thống có thể dẫn đến trải nghiệm người dùng tiêu cực đối với một số nhóm người dùng nhất định. Trong trường hợp này, kết quả âm tính giả trong hệ thống nhận diện khuôn mặt có thể dẫn đến lỗi sản phẩm, trong khi kết quả dương tính giả (phát hiện khuôn mặt khi không có) có thể gây khó chịu nhẹ cho người dùng. Vì vậy, việc đánh giá và giảm thiểu tỷ lệ âm tính giả là rất quan trọng đối với trường hợp sử dụng này.
  • Việc đánh dấu nhận xét văn bản của một số người một cách không công bằng là “thư rác” hoặc “có tính độc hại cao” trong hệ thống kiểm duyệt sẽ khiến một số tiếng nói nhất định bị im lặng. Một mặt, tỷ lệ dương tính giả cao dẫn đến việc kiểm duyệt không công bằng. Mặt khác, tỷ lệ âm tính giả cao có thể dẫn đến sự gia tăng nội dung độc hại từ một số nhóm nhất định, điều này vừa có thể gây hại cho người dùng vừa tạo thành tác hại mang tính đại diện cho các nhóm đó. Do đó, cả hai số liệu đều quan trọng cần xem xét, ngoài các số liệu có tính đến tất cả các loại lỗi như độ chính xác hoặc AUC.

Bạn không thấy số liệu bạn đang tìm kiếm?

Hãy làm theo tài liệu ở đây để thêm số liệu tùy chỉnh của riêng bạn.

Ghi chú cuối cùng

Khoảng cách về số liệu giữa hai nhóm có thể là dấu hiệu cho thấy mô hình của bạn có thể có sai lệch không công bằng . Bạn nên giải thích kết quả của bạn theo trường hợp sử dụng của bạn. Tuy nhiên, dấu hiệu đầu tiên cho thấy bạn có thể đang đối xử không công bằng với một nhóm người dùng là khi số liệu giữa nhóm người dùng đó và tổng thể của bạn khác biệt đáng kể. Đảm bảo tính đến khoảng tin cậy khi xem xét những khác biệt này. Khi bạn có quá ít mẫu trong một phần cụ thể, sự khác biệt giữa các số liệu có thể không chính xác.

Đạt được sự bình đẳng giữa các nhóm về Chỉ số Công bằng không có nghĩa là mô hình này công bằng. Các hệ thống rất phức tạp và việc đạt được sự bình đẳng trên một (hoặc thậm chí tất cả) số liệu được cung cấp không thể đảm bảo Tính công bằng.

Đánh giá công bằng phải được thực hiện trong suốt quá trình phát triển và sau khi ra mắt (không phải một ngày trước khi ra mắt). Giống như việc cải tiến sản phẩm của bạn là một quá trình liên tục và có thể điều chỉnh dựa trên phản hồi của người dùng và thị trường, việc làm cho sản phẩm của bạn trở nên công bằng và hợp lý đòi hỏi phải được chú ý liên tục. Khi các khía cạnh khác nhau của mô hình thay đổi, chẳng hạn như dữ liệu huấn luyện, đầu vào từ các mô hình khác hoặc bản thân thiết kế, các số liệu về tính công bằng có thể sẽ thay đổi. “Xóa rào cản” một lần là không đủ để đảm bảo rằng tất cả các thành phần tương tác vẫn còn nguyên vẹn theo thời gian.

Thử nghiệm đối nghịch nên được thực hiện đối với các ví dụ độc hại, hiếm gặp. Đánh giá công bằng không nhằm mục đích thay thế việc kiểm tra đối thủ. Việc bảo vệ bổ sung chống lại các ví dụ hiếm gặp, có mục tiêu là rất quan trọng vì những ví dụ này có thể sẽ không xuất hiện trong dữ liệu đào tạo hoặc đánh giá.