Bộ công cụ tối ưu hóa mô hình TensorFlow giảm thiểu sự phức tạp của việc tối ưu hóa suy luận máy học.
Hiệu quả suy luận là một mối quan tâm quan trọng khi triển khai các mô hình học máy vì độ trễ, sử dụng bộ nhớ và trong nhiều trường hợp là tiêu thụ điện năng. Đặc biệt trên các thiết bị tiên tiến, chẳng hạn như di động và Internet vạn vật (IoT), tài nguyên bị hạn chế hơn nữa, và kích thước mô hình và hiệu quả tính toán trở thành mối quan tâm lớn.
Nhu cầu đào tạo về tính toán tăng lên cùng với số lượng mô hình được đào tạo trên các kiến trúc khác nhau, trong khi nhu cầu tính toán về suy luận tăng tương ứng với số lượng người dùng.
Trường hợp sử dụng
Tối ưu hóa mô hình rất hữu ích, trong số những thứ khác, cho:
- Giảm độ trễ và chi phí suy luận cho cả thiết bị đám mây và thiết bị cạnh (ví dụ: di động, IoT).
- Triển khai các mô hình trên các thiết bị cạnh với các hạn chế về xử lý, bộ nhớ và / hoặc mức tiêu thụ điện năng.
- Giảm kích thước trọng tải để cập nhật mô hình qua mạng.
- Cho phép thực thi trên phần cứng bị hạn chế hoặc tối ưu hóa cho các hoạt động điểm cố định.
- Tối ưu hóa các mô hình cho các bộ tăng tốc phần cứng mục đích đặc biệt.
Kỹ thuật tối ưu hóa
Lĩnh vực tối ưu hóa mô hình có thể liên quan đến các kỹ thuật khác nhau:
- Giảm số lượng tham số với cắt tỉa và cắt tỉa có cấu trúc.
- Giảm độ chính xác biểu diễn với lượng tử hóa.
- Cập nhật cấu trúc liên kết của mô hình ban đầu thành cấu trúc liên kết hiệu quả hơn với các tham số được giảm bớt hoặc thực thi nhanh hơn. Ví dụ, phương pháp phân hủy tensor và chưng cất
Bộ công cụ của chúng tôi hỗ trợ lượng tử hóa sau đào tạo, đào tạo nhận thức lượng tử hóa , cắt tỉa và phân cụm . Bộ công cụ cũng cung cấp hỗ trợ thử nghiệm để tối ưu hóa cộng tác để kết hợp các kỹ thuật khác nhau.
Lượng tử hóa
Các mô hình lượng tử hóa là những mô hình mà chúng tôi đại diện cho các mô hình có độ chính xác thấp hơn, chẳng hạn như số nguyên 8 bit thay vì float 32 bit. Độ chính xác thấp hơn là một yêu cầu để tận dụng phần cứng nhất định.
Thưa thớt và cắt tỉa
Các mô hình thưa thớt là những mô hình mà các kết nối giữa các nhà khai thác (tức là các lớp mạng nơ ron) đã bị lược bớt, đưa các số không vào các tensors tham số.
Phân cụm
Mô hình phân cụm là những mô hình trong đó các tham số của mô hình ban đầu được thay thế bằng một số lượng nhỏ hơn các giá trị duy nhất.
Tối ưu hóa cộng tác
Bộ công cụ cung cấp hỗ trợ thử nghiệm để tối ưu hóa cộng tác. Điều này cho phép bạn hưởng lợi từ việc kết hợp một số kỹ thuật nén mô hình và đồng thời đạt được độ chính xác được cải thiện thông qua đào tạo nhận thức lượng tử hóa.