Atualizado: junho de 2021
O Model Optimization Toolkit (MOT) do TensorFlow tem sido amplamente usado para converter/otimizar modelos do TensorFlow em modelos do TensorFlow Lite com tamanho menor, melhor desempenho e precisão aceitável para executá-los em dispositivos móveis e IoT. Agora estamos trabalhando para estender as técnicas e ferramentas MOT além do TensorFlow Lite para oferecer suporte também ao TensorFlow SavedModel.
O que se segue representa uma visão geral de alto nível do nosso roteiro. Você deve estar ciente de que este roteiro pode mudar a qualquer momento e a ordem abaixo não reflete nenhum tipo de prioridade. Recomendamos fortemente que você comente nosso roteiro e nos forneça feedback no grupo de discussão .
Quantização
TensorFlow Lite
- Quantização seletiva pós-treinamento para excluir certas camadas da quantização.
- Depurador de quantização para inspecionar perdas de erros de quantização por camada.
- Aplicando treinamento com reconhecimento de quantização em mais cobertura de modelo, por exemplo, TensorFlow Model Garden.
- Melhorias de qualidade e desempenho para faixa dinâmica pós-treinamento. quantização.
TensorFlow
- Quantização pós-treinamento (faixa dinâmica bf16 * int8).
- Treinamento consciente de quantização ((bf16 * peso int8 apenas com quant falso).
- Quantização seletiva pós-treinamento para excluir certas camadas da quantização.
- Depurador de quantização para inspecionar perdas de erros de quantização por camada.
Esparsidade
TensorFlow Lite
- Suporte de execução de modelo esparso para mais modelos.
- Autoria com reconhecimento de alvo para Sparsity.
- Estenda o conjunto de operações esparsas com kernels x86 de alto desempenho.
TensorFlow
- Suporte de paridade no TensorFlow.
Técnicas de compressão em cascata
- Quantização + Compressão Tensor + Dispersão: demonstre todas as 3 técnicas trabalhando juntas.
Compressão
- API de compressão de tensor para ajudar os desenvolvedores de algoritmos de compressão a implementar seu próprio algoritmo de compressão de modelo (por exemplo, Weight Clustering), incluindo o fornecimento de uma maneira padrão de teste/benchmark.