下载
中文
注册

简介

本章节详细介绍AMCT量化场景,以及每个场景下的功能。

量化方式

AMCT支持命令行方式和Python API接口方式量化原始网络模型,两种方式优缺点比较如下:

表1 量化方式比较

命令行方式

Python API接口方式

量化准备动作简单,只需准备模型和模型匹配的数据集即可。

需要了解Python语法和量化流程。

量化过程简单,只涉及参数选择,无需对量化脚本进行适配。

需要适配修改量化脚本。

当前仅支持如下特性:

  • 训练后量化中的均匀量化。
  • QAT模型适配CANN模型。

支持量化的所有功能。

命令行方式中的均匀量化示例请参见快速入门,QAT模型适配CANN模型命令行方式调用示例请参见GiteeGithub;Python API接口方式请参见手工量化

量化分类

根据量化后是否手动调优量化配置文件,分为手工量化自动量化。训练后量化使用的量化算法请参见训练后量化算法

根据是否对权重数据进行压缩又分为均匀量化非均匀量化。如果量化后的精度不满足要求,则可以进行自动量化手工调优,推荐使用自动量化。

相关概念

表2 量化过程中的相关概念

术语

解释

数据量化和权重量化

训练后量化根据量化对象不同,又分为数据(activation)量化和权重(weight)量化。

当前昇腾AI处理器支持数据(activation)做对称/非对称量化,权重(weights)仅支持做对称量化(量化根据量化后数据中心点是否为0可以分为对称量化、非对称量化,详细的量化算法原理请参见量化算法原理)。

  • 数据(activation)量化

    数据量化是指根据数据的数值分布情况,将输入的数据(activation)处理到低比特。每一层的数据分布是未知且巨大的,只能在前向过程(推理或者训练)中确定,因此数据量化是基于推理或者训练过程的。

    而训练后量化场景通过在线量化的方式,修改用户推理模型,在待量化层位置插入旁路量化节点,采集待量化层输入数据,然后校准得到数据量化因子scale、offset。在推理时一般使用少量数据集,代表所有数据集的分布,简单快速。

  • 权重(weight)量化

    权重量化是指根据权重的数值分布情况,将权重处理到低比特。

    训练后量化场景通过离线量化的方式,直接从用户推理模型中读取权重数据,然后调用量化算法对权重进行量化,并将量化后数据写回到模型当中,并参与数据量化。

量化位宽

量化根据量化后低比特位宽大小分为常见的INT8、INT16量化:权重量化仅支持INT8量化,数据量化支持INT8和INT16两种量化方式,当前版本仅支持INT8量化

  • INT8量化:使用8比特的INT8数据来表示32比特的FP32数据,将FP32的卷积运算过程(乘加运算)转换为INT8的卷积运算,加速运算和实现模型压缩。
  • INT16量化:使用16比特的INT16数据来表示32比特的FP32数据,将FP32的卷积运算过程(乘加运算)转换为INT16的卷积运算,加速运算和实现模型压缩。

    INT8量化精度无法满足要求的场景,建议尝试使用INT16量化。

测试数据集

数据集的子集,用于最终测试模型的效果。

校准

训练后量化场景中,做前向推理获取数据量化因子的过程。

校准数据集

训练后量化场景中,做前向推理使用的数据集。该数据集的分布代表着所有数据集的分布,获取校准集时应该具有代表性,推荐使用测试集的子集作为校准数据集。如果数据集不是模型匹配的数据集或者代表性不够,则根据校准集计算得到的量化因子,在全数据集上表现较差,量化损失大,量化后精度低。

量化因子

将浮点数量化为整数的参数,包括缩放因子(Scale),偏移量(Offset)。

将浮点数量化为整数(以INT8为例)的公式如下:

Scale

量化因子,浮点数的缩放因子,该参数又分为:

  • scale_d:数据量化scale因子,仅支持对数据进行统一量化。
  • scale_w:权重量化scale因子,支持标量(对当前层的权重进行统一量化),向量(对当前层的权重按channel_wise方式进行量化)两种模式。关于参数的更多说明请参见record记录文件

Offset

量化因子,偏移量,该参数又分为:

  • offset_d:数据量化offset因子,仅支持对数据进行统一量化。
  • offset_w:权重量化offset因子,同scale_w一样支持标量和向量两种模式,且需要同scale_w维度一致。关于参数的更多说明请参见record记录文件