TensorFlow Lite NNAPI 委托

Android Neural Networks API (NNAPI) 在所有运行 Android 8.1（API 级别 27）或更高版本的 Android 设备上可用。在具有支持的硬件加速器的 Android 设备上，它可以为 TensorFlow Lite 模型提供加速。支持的硬件加速器包括：

图形处理单元 (GPU)
数字信号处理器 (DSP)
神经处理单元 (NPU)

根据设备上可用的特定硬件，性能可能有所不同。

本页介绍在 Java 和 Kotlin 中如何将 NNAPI 委托与 TensorFlow Lite 解释器结合使用。对于 Android C API，请参阅 Android Native Development Kit 文档。

在自己的模型上尝试 NNAPI 委托

Gradle 导入

NNAPI 委托是 TensorFlow Lite Android 解释器（1.14.0 或更高版本）的一部分。您可以通过将以下代码添加到模块的 Gradle 文件，将其导入项目：

dependencies {
   implementation 'org.tensorflow:tensorflow-lite:2.0.0'
}

初始化 NNAPI 委托

添加以下代码，先初始化 NNAPI 委托，然后再初始化 TensorFlow Lite 解释器。

注：虽然从 API 级别 27 (Android Oreo MR1) 开始就支持 NNAPI，但是，在 API 级别 28 (Android Pie) 及以后的版本上，对运算的支持大有改善。因此，对于大多数情形，我们建议开发者为 Android Pie 或更高的版本使用 NNAPI 委托。

import org.tensorflow.lite.Interpreter;
import org.tensorflow.lite.nnapi.NnApiDelegate;

Interpreter.Options options = (new Interpreter.Options());
NnApiDelegate nnApiDelegate = null;
// Initialize interpreter with NNAPI delegate for Android Pie or above
if(Build.VERSION.SDK_INT >= Build.VERSION_CODES.P) {
    nnApiDelegate = new NnApiDelegate();
    options.addDelegate(nnApiDelegate);
}

// Initialize TFLite interpreter
try {
    tfLite = new Interpreter(loadModelFile(assetManager, modelFilename), options);
} catch (Exception e) {
    throw new RuntimeException(e);
}

// Run inference
// ...

// Unload delegate
tfLite.close();
if(null != nnApiDelegate) {
    nnApiDelegate.close();
}

最佳做法

在部署前测试性能

由于模型架构、大小、运算、硬件可用性和运行时硬件利用率不同，运行时性能可能会有显著差异。例如，如果某个应用使用大量 GPU 资源进行渲染，则 NNAPI 加速可能因资源竞争而无法改善性能。我们建议使用调试记录器运行简单的性能测试，以便衡量推断时间。在正式环境中启用 NNAPI 之前，先在代表您的用户群体的几部手机上运行测试。这些手机具有不同的芯片组（来自不同制造商或同一制造商的不同型号）。

对于高级开发者，TensorFlow Lite 还提供了一个适用于 Android 的模型基准测试工具。

创建设备排除列表

在正式环境中，NNAPI 可能出现无法按预期执行的情况。我们建议开发者维护一个不应将 NNAPI 加速与特定型号结合使用的设备列表。您可以根据 "ro.board.platform" 的值创建此列表。使用以下代码段可以检索该值：

String boardPlatform = "";

try {
    Process sysProcess =
        new ProcessBuilder("/system/bin/getprop", "ro.board.platform").
        redirectErrorStream(true).start();

    BufferedReader reader = new BufferedReader
        (new InputStreamReader(sysProcess.getInputStream()));
    String currentLine = null;

    while ((currentLine=reader.readLine()) != null){
        boardPlatform = line;
    }
    sysProcess.destroy();
} catch (IOException e) {}

Log.d("Board Platform", boardPlatform);

对于高级开发者，可以考虑通过远程配置系统维护此列表。TensorFlow 团队正在积极研究简化和自动化发现并应用最佳 NNAPI 配置的方式。

量化

通过为计算使用 8 位整数或 16 位浮点数（而不是 32 位浮点数），量化可以缩减模型大小。8 位整数模型的大小是 32 位浮点版本的四分之一；16 位浮点版本的大小则为其一半。量化可以显著提高性能，不过这可能对模型的准确率有一定影响。

目前有多种训练后量化技术可用，但是为了在最新的硬件上获得最佳支持和加速，我们建议使用全整数量化。这种方式会将权重和运算都转换成整数。此量化过程需要一个代表数据集才能运行。

使用支持的模型和运算

如果 NNAPI 委托不支持模型中的某些运算或参数组合，则框架只会在加速器上运行受支持的计算图部分。剩下的计算图将在 CPU 上运行，这会产生执行拆分。由于 CPU/加速器同步的开销很大，因此，这会导致性能比完全在 CPU 上执行整个网络时更低。

当模型仅使用支持的运算时，NNAPI 表现最佳。已知下面的模型与 NNAPI 兼容：

MobileNet v1 (224x224) 图像分类（浮点模型下载）（量化模型下载）
（专为基于移动设备和嵌入式设备视觉应用设计的图像分类模型）
MobileNet v2 SSD 目标检测（下载）
（使用边界框检测多个目标的图像分类模型）
MobileNet v1(300x300) 单样本检测器 (SSD) 目标检测（下载）
用于姿势预测的 PoseNet （下载）
（预测图像或视频中人物姿势的视觉模型）

当模型包含动态大小的输出时，也不支持 NNAPI 加速。在这种情况下，您会收到如下所示的警告：

ERROR: Attempting to use a delegate that only supports static-sized tensors \
with a graph that has dynamic-sized tensors.

启用 NNAPI CPU 实现

无法完全由加速器处理的计算图可以回退到 NNAPI CPU 实现。但是，由于这种做法的性能通常不如 TensorFlow 解释器，因此在 Android 10（API 级别 29）或更高版本的 NNAPI 委托中，默认情况下会停用此选项。若要重写此行为，请在 NnApiDelegate.Options 对象中将 setUseNnapiCpu 设置为 true。