NUQ权重量化算法
该算法用于训练后量化下的非均匀量化场景。Atlas 200/300/500 推理产品、Atlas 训练系列产品不支持非均匀量化。
NUQ(Non Uniform Quantization)是对权重非等间距量化的一种方法,均匀量化将权重数据从32比特量化到8比特,NUQ在此基础上挑选部分量化台阶。权重压缩后会带来精度损失,为了在指定的压缩目标下获得最小的精度损失,算法使用了搜索的方式来查找最小损失的压缩方式。量化配置中通过NUQuantize(参数解释请参见表1)来控制NUQ算法。
- num_steps用于指定压缩目标,值越小,压缩率越高,但精度损失会更大,反之则相反。
- num_of_iteration代表搜索过程迭代次数,一般来说值越大,精度越高,但计算时间会指数级上升,建议使用默认值。
父主题: 量化算法