Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Cập nhật: Tháng 6 năm 2021
Bộ công cụ tối ưu hóa mô hình (MOT) của TensorFlow đã được sử dụng rộng rãi để chuyển đổi/tối ưu hóa các mô hình TensorFlow thành các mô hình TensorFlow Lite với kích thước nhỏ hơn, hiệu suất tốt hơn và độ chính xác chấp nhận được để chạy chúng trên thiết bị di động và thiết bị IoT. Chúng tôi hiện đang nỗ lực mở rộng các kỹ thuật và công cụ của MOT ngoài TensorFlow Lite để hỗ trợ cả TensorFlow SavingModel.
Phần sau đây trình bày tổng quan cấp cao về lộ trình của chúng tôi. Bạn nên lưu ý rằng lộ trình này có thể thay đổi bất cứ lúc nào và thứ tự bên dưới không phản ánh bất kỳ loại ưu tiên nào. Chúng tôi thực sự khuyến khích bạn nhận xét về lộ trình của chúng tôi và cung cấp cho chúng tôi phản hồi trong nhóm thảo luận .
Lượng tử hóa
TensorFlow Lite
- Lượng tử hóa sau đào tạo có chọn lọc để loại trừ các lớp nhất định khỏi lượng tử hóa.
- Trình gỡ lỗi lượng tử hóa để kiểm tra tổn thất do lỗi lượng tử hóa trên mỗi lớp.
- Áp dụng đào tạo nhận thức lượng tử hóa trên nhiều mô hình hơn, ví dụ: TensorFlow Model Garden.
- Cải thiện chất lượng và hiệu suất cho dải động sau đào tạo. lượng tử hóa.
Dòng chảy căng
- Lượng tử hóa sau đào tạo (phạm vi động bf16 * int8).
- Đào tạo nhận thức lượng tử hóa ((bf16 * int8 chỉ có trọng lượng giả).
- Lượng tử hóa sau đào tạo có chọn lọc để loại trừ các lớp nhất định khỏi lượng tử hóa.
- Trình gỡ lỗi lượng tử hóa để kiểm tra tổn thất do lỗi lượng tử hóa trên mỗi lớp.
thưa thớt
TensorFlow Lite
- Hỗ trợ thực thi mô hình thưa thớt cho nhiều mô hình hơn.
- Tác giả nhận biết mục tiêu cho Sparsity.
- Mở rộng bộ hoạt động thưa thớt với hạt nhân x86 hiệu suất cao.
Dòng chảy căng
- Hỗ trợ chẵn lẻ trong TensorFlow.
Kỹ thuật nén xếp tầng
- Lượng tử hóa + Nén Tensor + Độ thưa thớt: thể hiện cả 3 kỹ thuật hoạt động cùng nhau.
Nén
- API nén Tensor để giúp các nhà phát triển thuật toán nén triển khai thuật toán nén mô hình của riêng họ (ví dụ: Phân cụm trọng lượng) bao gồm việc cung cấp một cách tiêu chuẩn để kiểm tra/điểm chuẩn.
Trừ phi có lưu ý khác, nội dung của trang này được cấp phép theo Giấy phép ghi nhận tác giả 4.0 của Creative Commons và các mẫu mã lập trình được cấp phép theo Giấy phép Apache 2.0. Để biết thông tin chi tiết, vui lòng tham khảo Chính sách trang web của Google Developers. Java là nhãn hiệu đã đăng ký của Oracle và/hoặc các đơn vị liên kết với Oracle.
Cập nhật lần gần đây nhất: 2025-07-25 UTC.
[null,null,["Cập nhật lần gần đây nhất: 2025-07-25 UTC."],[],[],null,["\u003cbr /\u003e\n\n**Updated: June, 2021**\n\nTensorFlow's Model Optimization Toolkit (MOT) has been used widely for\nconverting/optimizing TensorFlow models to TensorFlow Lite models with smaller\nsize, better performance and acceptable accuracy to run them on mobile and IoT\ndevices. We are now working to extend MOT techniques and tooling beyond\nTensorFlow Lite to support TensorFlow SavedModel as well.\n\nThe following represents a high level overview of our roadmap. You should be\naware that this roadmap may change at any time and the order below does not\nreflect any type of priority. We strongly encourage you to comment on our\nroadmap and provide us feedback in the\n[discussion group](https://groups.google.com/a/tensorflow.org/g/tflite).\n\nQuantization\n------------\n\n#### TensorFlow Lite\n\n- Selective post-training quantization to exclude certain layers from quantization.\n- Quantization debugger to inspect quantization error losses per layer.\n- Applying quantization-aware training on more model coverage e.g. TensorFlow Model Garden.\n- Quality and performance improvements for post-training dynamic-range. quantization.\n\n#### TensorFlow\n\n- Post Training Quantization (bf16 \\* int8 dynamic range).\n- Quantization Aware Training ((bf16 \\* int8 weight-only with fake quant).\n- Selective post-training quantization to exclude certain layers from quantization.\n- Quantization debugger to inspect quantization error losses per layer.\n\nSparsity\n--------\n\n#### TensorFlow Lite\n\n- Sparse model execution support for more models.\n- Target aware authoring for Sparsity.\n- Extend sparse op set with performant x86 kernels.\n\n#### TensorFlow\n\n- Sparity support in TensorFlow.\n\nCascading compression techniques\n--------------------------------\n\n- Quantization + Tensor Compression + Sparsity: demonstrate all 3 techniques working together.\n\nCompression\n-----------\n\n- Tensor compression API to help compression algorithm developers implement their own model compression algorithm (e.g. Weight Clustering) including providing a standard way to test/benchmark."]]