Cập nhật: Tháng 6 năm 2021

Bộ công cụ tối ưu hóa mô hình (MOT) của TensorFlow đã được sử dụng rộng rãi để chuyển đổi/tối ưu hóa các mô hình TensorFlow thành các mô hình TensorFlow Lite với kích thước nhỏ hơn, hiệu suất tốt hơn và độ chính xác chấp nhận được để chạy chúng trên thiết bị di động và thiết bị IoT. Chúng tôi hiện đang nỗ lực mở rộng các kỹ thuật và công cụ của MOT ngoài TensorFlow Lite để hỗ trợ cả TensorFlow SavingModel.

Phần sau đây trình bày tổng quan cấp cao về lộ trình của chúng tôi. Bạn nên lưu ý rằng lộ trình này có thể thay đổi bất cứ lúc nào và thứ tự bên dưới không phản ánh bất kỳ loại ưu tiên nào. Chúng tôi thực sự khuyến khích bạn nhận xét về lộ trình của chúng tôi và cung cấp cho chúng tôi phản hồi trong nhóm thảo luận .

Lượng tử hóa

TensorFlow Lite

  • Lượng tử hóa sau đào tạo có chọn lọc để loại trừ các lớp nhất định khỏi lượng tử hóa.
  • Trình gỡ lỗi lượng tử hóa để kiểm tra tổn thất do lỗi lượng tử hóa trên mỗi lớp.
  • Áp dụng đào tạo nhận thức lượng tử hóa trên nhiều mô hình hơn, ví dụ: TensorFlow Model Garden.
  • Cải thiện chất lượng và hiệu suất cho dải động sau đào tạo. lượng tử hóa.

Dòng chảy căng

  • Lượng tử hóa sau đào tạo (phạm vi động bf16 * int8).
  • Đào tạo nhận thức lượng tử hóa ((bf16 * int8 chỉ có trọng lượng giả).
  • Lượng tử hóa sau đào tạo có chọn lọc để loại trừ các lớp nhất định khỏi lượng tử hóa.
  • Trình gỡ lỗi lượng tử hóa để kiểm tra tổn thất do lỗi lượng tử hóa trên mỗi lớp.

thưa thớt

TensorFlow Lite

  • Hỗ trợ thực thi mô hình thưa thớt cho nhiều mô hình hơn.
  • Tác giả nhận biết mục tiêu cho Sparsity.
  • Mở rộng bộ hoạt động thưa thớt với hạt nhân x86 hiệu suất cao.

Dòng chảy căng

  • Hỗ trợ chẵn lẻ trong TensorFlow.

Kỹ thuật nén xếp tầng

  • Lượng tử hóa + Nén Tensor + Độ thưa thớt: thể hiện cả 3 kỹ thuật hoạt động cùng nhau.

Nén

  • API nén Tensor để giúp các nhà phát triển thuật toán nén triển khai thuật toán nén mô hình của riêng họ (ví dụ: Phân cụm trọng lượng) bao gồm việc cung cấp một cách tiêu chuẩn để kiểm tra/điểm chuẩn.