Обучение квантованию

Поддерживается оптимизацией модели TensorFlow

Существует две формы квантования: квантование после обучения и обучение с учетом квантования. Начните с квантования после обучения , так как его проще использовать, хотя обучение с учетом квантования часто лучше для точности модели.

На этой странице представлен обзор обучения с учетом квантования, который поможет вам определить, насколько оно соответствует вашему варианту использования.

Обзор

Обучение с учетом квантования эмулирует квантование времени вывода, создавая модель, которую последующие инструменты будут использовать для создания действительно квантованных моделей. В квантованных моделях используется более низкая точность (например, 8-битная вместо 32-битной с плавающей запятой), что дает преимущества при развертывании.

Развертывание с квантованием

Квантование приносит улучшения за счет сжатия модели и уменьшения задержки. При использовании API по умолчанию размер модели уменьшается в 4 раза, и мы обычно видим улучшение задержки ЦП в 1,5–4 раза в протестированных бэкендах. В конце концов, улучшения задержки можно увидеть на совместимых ускорителях машинного обучения, таких как EdgeTPU и NNAPI.

Этот метод используется в производстве в случаях речи, зрения, текста и перевода. Код в настоящее время поддерживает подмножество этих моделей .

Экспериментируйте с квантованием и соответствующим оборудованием

Пользователи могут настраивать параметры квантования (например, количество битов) и, в некоторой степени, базовые алгоритмы. Обратите внимание, что с этими изменениями по умолчанию API в настоящее время нет поддерживаемого пути для развертывания на серверной части. Например, преобразование TFLite и реализации ядра поддерживают только 8-битное квантование.

API, специфичные для этой конфигурации, являются экспериментальными и не подлежат обратной совместимости.

API-совместимость

Пользователи могут применять квантование с помощью следующих API:

  • Построение модели: tf.keras только с последовательной и функциональной моделями.
  • Версии TensorFlow: TF 2.x для tf-nightly.
    • tf.compat.v1 с пакетом TF 2.X не поддерживается.
  • Режим выполнения TensorFlow: нетерпеливое выполнение

В наши планы входит добавление поддержки в следующих областях:

  • Построение модели: поясните, как модели подклассов ограничены отсутствием поддержки.
  • Распределенное обучение: tf.distribute

Общая матрица поддержки

Поддержка доступна в следующих областях:

  • Покрытие модели: модели, использующие слои из списка разрешенных, BatchNormalization, когда она следует слоям Conv2D и DepthwiseConv2D, и, в некоторых случаях, Concat .
  • Аппаратное ускорение: наши API по умолчанию совместимы с ускорением на бэкэндах EdgeTPU, NNAPI и TFLite, среди прочего. См. предостережение в дорожной карте.
  • Развертывание с квантованием: в настоящее время поддерживается только квантование по осям для сверточных слоев, а не квантование по тензорам.

В наши планы входит добавление поддержки в следующих областях:

  • Охват модели: расширен за счет включения RNN/LSTM и общей поддержки Concat.
  • Аппаратное ускорение: убедитесь, что преобразователь TFLite может создавать полностью целочисленные модели. Подробнее см. в этом выпуске .
  • Поэкспериментируйте с вариантами использования квантования:
    • Поэкспериментируйте с алгоритмами квантования, которые охватывают слои Keras или требуют этапа обучения.
    • Стабилизировать API.

Полученные результаты

Классификация изображений с помощью инструментов

Модель Неквантованная точность Top-1 8-битная квантованная точность
Мобильная сетьV1 224 71,03% 71,06%
Реснет v1 50 76,3% 76,1%
МобайлнетВ2 224 70,77% 70,01%

Модели были протестированы в Imagenet и оценены как в TensorFlow, так и в TFLite.

Классификация изображений по технике

Модель Неквантованная точность Top-1 8-битная квантованная точность
Наснет-Мобайл 74% 73%
Реснет-v2 50 75,6% 75%

Модели были протестированы в Imagenet и оценены как в TensorFlow, так и в TFLite.

Примеры

В дополнение к обучающему примеру с квантованием см. следующие примеры:

  • Модель CNN на задаче классификации рукописных цифр MNIST с квантованием: код

Справочную информацию о чем-то подобном см. в документе « Квантование и обучение нейронных сетей для эффективного вывода только целочисленных арифметических операций» . В этом документе представлены некоторые концепции, которые использует этот инструмент. Реализация не совсем такая же, и в этом инструменте используются дополнительные концепции (например, квантование по осям).