מתי עלי להשתמש ב-MinDiff?
החל MinDiff במקרים שבהם המודל שלך מתפקד טוב באופן כללי, אך מייצר שגיאות מזיקות בתדירות גבוהה יותר בדוגמאות השייכות לקבוצה רגישה, וברצונך לסגור את פער הביצועים. קבוצות העניין הרגישות עשויות להשתנות בהתאם למקרה השימוש שלך, אך לרוב כוללות כיתות מוגנת, כגון גזע, דת, מגדר, נטייה מינית ועוד. לאורך מסמך זה, נשתמש ב"קבוצה רגישה" כדי להתייחס לכל סט של דוגמאות השייכות לכיתה מוגנת.
ישנם שני תנאים עיקריים לשימוש ב-MinDiff כדי לטפל בפרוסות נתונים עם ביצועים נמוכים:
- כבר כיוונת והערכת את המודל שלך, וזיהית מדדים שמראים חלקי נתונים עם ביצועים נמוכים. יש לעשות זאת לפני החלת תיקון מודל.
- יש לך, או שאתה יכול להשיג, מספר מספיק של דוגמאות רלוונטיות עם תווית השייכות לקבוצה עם ביצועים נמוכים (פרטים נוספים בהמשך).
MinDiff היא אחת מטכניקות רבות לתיקון התנהגות לא שוויונית. בפרט, זו עשויה להיות בחירה טובה כאשר אתה מנסה להשוות ביצועים ישירות בין קבוצות. ניתן להשתמש ב-MinDiff בשילוב עם גישות אחרות, כגון הגדלת נתונים ואחרות, מה שעשוי להוביל לתוצאות טובות יותר. עם זאת, אם אתה צריך לתעדף באיזו טכניקה להשקיע, עליך לעשות זאת בהתאם לצרכי המוצר שלך.
בעת יישום MinDiff, ייתכן שתראה ירידה או שינוי קל בביצועים עבור הקבוצות עם הביצועים הטובים ביותר שלך, ככל שהקבוצות שלך עם ביצועים נמוכים משתפרים. הפשרה הזו צפויה, ויש להעריך אותה בהקשר של דרישות המוצר שלך. בפועל, ראינו לעתים קרובות ש-MinDiff לא גורם לפרוסות בעלות הביצועים הטובים ביותר לרדת מתחת לרמות המקובלות, אבל זה ספציפי ליישום והחלטה שצריכה להתקבל על ידי בעל המוצר.
על אילו סוגי דגמים אוכל ליישם את MinDiff?
MinDiff הוכח כיעיל באופן עקבי כאשר מיושם על מסווגים בינאריים. התאמת השיטה ליישומים אחרים אפשרית, אך לא נוסתה במלואה. נעשתה עבודה מסוימת כדי להראות הצלחה במשימות ריבוי סיווג ודירוג 1 , אך כל שימוש ב-MinDiff במודלים אלה או אחרים צריך להיחשב ניסיוני.
על אילו מדדים אוכל ליישם את MinDiff?
MinDiff עשוי להיות פתרון טוב כאשר המדד שאתה מנסה להשוות בין קבוצות הוא שיעור חיובי שגוי (FPR) , או שיעור שלילי שגוי (FNR) , אבל זה עשוי לעבוד עבור מדדים אחרים. ככלל, MinDiff עשוי לפעול כאשר המדד שאליו אתה ממקד הוא תוצאה של הבדלים בהתפלגות הציונים בין דוגמאות השייכות לקבוצה רגישה לבין דוגמאות שאינן שייכות לקבוצה רגישה.
בניית מערך הנתונים של MinDiff שלך
בעת הכנה לאימון עם MinDiff, תצטרך להכין שלושה מערכי נתונים נפרדים. כמו באימונים רגילים, מערכי הנתונים של MinDiff צריכים להיות מייצגים את המשתמשים שהמודל שלך משרת. MinDiff עשוי לעבוד בלי זה, אך עליך לנקוט משנה זהירות במקרים כאלה.
בהנחה שאתה מנסה לשפר את ה-FPR של הדגם שלך עבור דוגמאות השייכות לכיתה רגישה, תצטרך:
- ערכת ההדרכה המקורית - מערך הנתונים המקורי ששימש לאימון המודל הבסיסי שלך
- ה-MinDiff sensitive set - מערך נתונים של דוגמאות השייכות למחלקה הרגישה עם תוויות קרקע שליליות בלבד . דוגמאות אלו ישמשו רק לחישוב הפסד MinDiff.
- הסט הלא רגיש של MinDiff - מערך נתונים של דוגמאות שאינן שייכות למחלקה הרגישה עם תוויות שליליות של אמת קרקע בלבד . דוגמאות אלו ישמשו רק לחישוב הפסד MinDiff.
בעת השימוש בספרייה, תשלב את כל שלושת מערכי הנתונים הללו למערך נתונים אחד, שישמש כמערכת ההדרכה החדשה שלך.
בחירת דוגמאות עבור MinDiff
אולי זה נראה מנוגד לאינטואיציה בדוגמה שלמעלה לחתוך קבוצות של דוגמאות עם תיוג שלילי אם אתה מודאג בעיקר מהפערים בשיעור חיובי שגוי . עם זאת, זכור כי תחזית חיובית שגויה מגיעה מדוגמה שסווגה באופן שגוי כחיובית.
בעת איסוף הנתונים שלך עבור MinDiff, עליך לבחור דוגמאות שבהן הפער בביצועים ניכר. בדוגמה שלנו לעיל, משמעות הדבר היא בחירת דוגמאות עם תיוג שלילי כדי לטפל ב-FPR. אילו היינו מעוניינים למקד ל-FNR, היינו צריכים לבחור דוגמאות עם תיוג חיובי.
כמה נתונים אני צריך?
שאלה טובה - זה תלוי במקרה השימוש שלך! בהתבסס על ארכיטקטורת המודל, הפצת הנתונים ותצורת MinDiff, כמות הנתונים הדרושה יכולה להשתנות באופן משמעותי. ביישומים קודמים, ראינו את MinDiff עובד היטב עם 5,000 דוגמאות בכל סט אימונים של MinDiff (סטים 2 ו-3 בסעיף הקודם). עם פחות נתונים, קיים סיכון מוגבר לביצועים מופחתים, אבל זה עשוי להיות מינימלי או מקובל בגבולות מגבלות הייצור שלך. לאחר החלת MinDiff, תצטרך להעריך את התוצאות שלך ביסודיות כדי להבטיח ביצועים מקובלים. אם הם לא אמינים, או לא עומדים בציפיות הביצועים, עדיין כדאי לשקול לאסוף נתונים נוספים.
מתי MinDiff לא מתאים לי?
MinDiff היא טכניקה עוצמתית שיכולה לספק תוצאות מרשימות, אבל זה לא אומר שזו השיטה הנכונה לכל המצבים. יישום זה באופן אקראי אינו מבטיח שתשיג פתרון הולם.
מעבר לדרישות שנדונו לעיל, ישנם מקרים שבהם MinDiff עשוי להיות ריאלי מבחינה טכנית, אך לא מתאים. אתה תמיד צריך לעצב את זרימת העבודה שלך ב-ML בהתאם לשיטות המומלצות המוכרות. לדוגמה, אם משימת הדגם שלך אינה מוגדרת בצורה לא נכונה, המוצר לא צריך להיות ברור, או התוויות לדוגמה שלך מוטות מדי, עליך לתת עדיפות לטיפול בבעיות אלו. באופן דומה, אם אין לך הגדרה ברורה של הקבוצה הרגישה, או שאינך מסוגל לקבוע באופן אמין אם דוגמאות שייכות לקבוצה הרגישה, לא תוכל ליישם את MinDiff ביעילות.
ברמה גבוהה יותר, אתה תמיד צריך לשקול אם המוצר שלך הוא בכלל שימוש מתאים עבור ML. אם כן, שקול את הוקטורים הפוטנציאליים לפגיעה במשתמש שהוא יוצר. המרדף אחר ML אחראי הוא מאמץ רב-צדדי שמטרתו לצפות מגוון רחב של נזקים פוטנציאליים; MinDiff יכול לעזור להפחית חלק מאלה, אבל כל התוצאות ראויות לשיקול זהיר.
1 Beutel A., Chen, J., Doshi, T., Qian, H., Wei, L., Wu, Y., Heldt, L., Zhao, Z., Hong, L., Chi, E., Goodrow, C. (2019). הוגנות בדירוג המלצות באמצעות השוואות זוגיות.