简介

本章节详细介绍AMCT量化场景，以及每个场景下的功能。

量化分类

根据量化后是否手动调优量化配置文件，分为手工量化和自动量化。训练后量化使用的量化算法请参见训练后量化算法。

根据是否对权重数据进行压缩又分为均匀量化和非均匀量化。如果量化后的精度不满足要求，则可以进行自动量化或手工调优，推荐使用自动量化。

相关概念

表1 量化过程中的相关概念
术语	解释
数据量化和权重量化	训练后量化根据量化对象不同，又分为数据（activation）量化和权重（weight）量化。当前昇腾AI处理器支持数据（activation）做对称/非对称量化，权重（weights）仅支持做对称量化（量化根据量化后数据中心点是否为0可以分为对称量化、非对称量化，详细的量化算法原理请参见量化算法原理）。数据（activation）量化数据量化是指根据数据的数值分布情况，将输入的数据（activation）处理到低比特。每一层的数据分布是未知且巨大的，只能在前向过程（推理或者训练）中确定，因此数据量化是基于推理或者训练过程的。而训练后量化场景通过在线量化的方式，修改用户推理模型，在待量化层位置插入旁路量化节点，采集待量化层输入数据，然后校准得到数据量化因子scale、offset。在推理时一般使用少量数据集，代表所有数据集的分布，简单快速。权重（weight）量化权重量化是指根据权重的数值分布情况，将权重处理到低比特。训练后量化场景通过离线量化的方式，直接从用户推理模型中读取权重数据，然后调用量化算法对权重进行量化，并将量化后数据写回到模型当中，并参与数据量化。
量化位宽	量化根据量化后低比特位宽大小分为常见的INT8、INT16量化：权重量化仅支持INT8量化，数据量化支持INT8和INT16两种量化方式，当前版本仅支持INT8量化。 INT8量化：使用8比特的INT8数据来表示32比特的FP32数据，将FP32的卷积运算过程（乘加运算）转换为INT8的卷积运算，加速运算和实现模型压缩。 INT16量化：使用16比特的INT16数据来表示32比特的FP32数据，将FP32的卷积运算过程（乘加运算）转换为INT16的卷积运算，加速运算和实现模型压缩。 INT8量化精度无法满足要求的场景，建议尝试使用INT16量化。
测试数据集	数据集的子集，用于最终测试模型的效果。
校准	训练后量化场景中，做前向推理获取数据量化因子的过程。
校准数据集	训练后量化场景中，做前向推理使用的数据集。该数据集的分布代表着所有数据集的分布，获取校准集时应该具有代表性，推荐使用测试集的子集作为校准数据集。如果数据集不是模型匹配的数据集或者代表性不够，则根据校准集计算得到的量化因子，在全数据集上表现较差，量化损失大，量化后精度低。
量化因子	将浮点数量化为整数的参数，包括缩放因子（Scale），偏移量（Offset）。将浮点数量化为整数（以INT8为例）的公式如下：
Scale	量化因子，浮点数的缩放因子，该参数又分为： scale_d：数据量化scale因子，仅支持对数据进行统一量化。 scale_w：权重量化scale因子，支持标量（对当前层的权重进行统一量化），向量（对当前层的权重按channel_wise方式进行量化）两种模式。关于参数的更多说明请参见record记录文件。
Offset	量化因子，偏移量，该参数又分为： offset_d：数据量化offset因子，仅支持对数据进行统一量化。 offset_w：权重量化offset因子，同scale_w一样支持标量和向量两种模式，且需要同scale_w维度一致。关于参数的更多说明请参见record记录文件。

父主题： 量化