ערכת הכלים לאופטימיזציה של מודל TensorFlow ממזערת את המורכבות של אופטימיזציה של מסקנות למידת מכונה.
יעילות מסקנות היא דאגה קריטית בעת פריסת מודלים של למידת מכונה בגלל זמן השהייה, ניצול זיכרון ובמקרים רבים צריכת חשמל. במיוחד במכשירי קצה, כמו ניידים ואינטרנט של הדברים (IoT), המשאבים מוגבלים עוד יותר, וגודל המודל ויעילות החישוב הופכים לדאגה מרכזית.
הדרישה החישובית לאימון גדלה עם מספר המודלים שהוכשרו על ארכיטקטורות שונות, בעוד שהביקוש החישובי להסקת מסקנות גדל ביחס למספר המשתמשים.
מקרי שימוש
אופטימיזציה של מודל שימושית, בין היתר, עבור:
- הפחתת זמן האחזור והעלות להסקת מסקנות הן עבור מכשירי ענן והן עבור מכשירי קצה (למשל נייד, IoT).
- פריסת דגמים במכשירי קצה עם הגבלות על עיבוד, זיכרון ו/או צריכת חשמל.
- הקטנת גודל המטען עבור עדכוני דגמים באוויר.
- הפעלת ביצוע בחומרה מוגבלת או מותאמת לפעולות בנקודות קבועות.
- אופטימיזציה של דגמים עבור מאיצי חומרה למטרות מיוחדות.
טכניקות אופטימיזציה
תחום אופטימיזציית המודלים יכול לכלול טכניקות שונות:
- הפחת את ספירת הפרמטרים עם גיזום וגיזום מובנה.
- הפחת את דיוק הייצוג באמצעות קוונטיזציה.
- עדכן את טופולוגיית המודל המקורית ליעילה יותר עם פרמטרים מופחתים או ביצוע מהיר יותר. למשל, שיטות פירוק טנזור וזיקוק
ערכת הכלים שלנו תומכת בקוונטיזציה שלאחר האימון , בהכשרה מודעת לקוונטיזציה , בגיזום ובאשכולות . ערכת הכלים מספקת גם תמיכה ניסיונית לאופטימיזציה שיתופית לשילוב טכניקות שונות.
כימות
מודלים קוונטיים הם אלה שבהם אנו מייצגים את המודלים עם דיוק נמוך יותר, כגון מספרים שלמים של 8 סיביות בניגוד לצוף של 32 סיביות. דיוק נמוך יותר הוא דרישה למינוף חומרה מסוימת.
דלילות וגיזום
מודלים דלילים הם אלה שבהם נכרתו חיבורים בין מפעילים (כלומר שכבות רשת עצביות), תוך הצגת אפסים לטנסור הפרמטרים.
מקבץ
מודלים מקובצים הם אלה שבהם הפרמטרים של הדגם המקורי מוחלפים במספר קטן יותר של ערכים ייחודיים.
אופטימיזציה משותפת
ערכת הכלים מספקת תמיכה ניסיונית לאופטימיזציה שיתופית. זה מאפשר לך להפיק תועלת משילוב של מספר טכניקות דחיסה של מודלים ובו-זמנית להשיג דיוק משופר באמצעות אימון מודע לכיוונטיזציה.