下载
中文
注册

QuantConfig

功能说明

量化参数配置类,保存量化过程中配置的参数。

函数原型

QuantConfig(w_bit=8, a_bit=8, w_signed=True, a_signed=False, w_sym=True, a_sym=False, input_shape=None, act_quant=True, act_method=0, quant_mode=0, disable_names=None, amp_num=0, keep_acc=None, sigma=25, disable_first_layer=True, disable_last_layer=True, is_optimize_graph=True, is_dynamic_shape=False, use_onnx=True, num_input=0, quant_param_ops=None, atc_input_shape=None, graph_optimize_level=0, shut_down_structures=None, device_id=0, om_method='aoe')

参数说明

参数名

输入/返回值

含义

使用限制

w_bit

输入

权重量化bit。

可选。

数据类型:int。

默认为8,暂不支持其他bit量化,不支持修改。

a_bit

输入

激活层量化bit。

可选。

数据类型:int。

默认为8,暂不支持其他bit量化,不支持修改。

w_signed

输入

是否对权重进行符号量化。

可选。

数据类型:bool。

默认为True。

a_signed

输入

是否对激活值进行符号量化。

可选。

数据类型:bool。

默认为False。

使用relu的CV模型建议设置为False,其他模型建议设置为True。

w_sym

输入

权重是否对称量化。

可选。

数据类型:bool。

默认为True。

a_sym

输入

激活值是否对称量化。

可选。

数据类型:bool。

默认为False。

input_shape

输入

当输入模型支持动态shape时,用户需指定input_shape参数,用以生成量化时的校对数据。

可选,当模型支持动态shape时必须指定。

数据类型:list [list]

默认值:[]

当模型有多个输入时,按照顺序指定input_shape,例如:[[1, 3,224, 224], [1, 3, 640, 640]]。

act_quant

输入

是否对激活值进行量化。

可选。

数据类型:bool。

默认值为True。

暂不支持修改。

act_method

输入

激活值量化方法。

可选。

数据类型:int。

可选值[0,1,2],默认为0。

  • 0代表Data-Free场景的量化方法(具体由sigma参数决定)。
  • 1代表Label-Free场景的Min-Max observer方法。Label-Free场景推荐选1。
  • 2代表Label-Free场景的histogram observer方法。

quant_mode

输入

量化模式。

可选。

数据类型:int。

可选值为[0,1],默认为0。

0代表Data-Free量化模式,1代表label-free量化模式。

disable_names

输入

需排除量化的节点名称,即手动回退的量化层名称。

如精度太差,推荐回退量化敏感层,如分类层、输入层、检测head层等。

可选。

数据类型:list[str]。

默认值[]。

amp_num

输入

混合精度量化回退层数。

精度降低过多时,可增加回退层数,推荐优先回退3~7层,如果精度恢复不明显,再增加回退层数。

可选。

数据类型:int。

默认为0。

keep_acc

输入

精度保持策略。

  • admm和round_opt是用来改善权重量化,减少权重量化误差,推荐在label-free模式下使用,适当改善量化效果。
  • easy_quant用来改善激活量化,减少激活量化误差,推荐在data-free模式下使用,通常能够起到较好的改善效果。

可选。

数据类型:dict。

包含以下三种精度保持策略:

  • admm策略:数据类型[bool, int],bool配置是否开启,int配置优化迭代次数。
  • easy_quant:(推荐)数据类型[bool, int],bool配置是否开启,int配置优化迭代次数。
  • round_opt:数据类型[bool],bool配置是否开启。

输入模板为:keep_acc={'admm': [False, 1000], 'easy_quant': [False, 1000], 'round_opt': False} 。

sigma

输入

Data-free的量化统计方法。

建议输入值为0或25,卷积类模型使用sigma统计效果更好,transformers类模型min-max统计效果更好。

可选。

数据类型:int。

默认为25。

  • sigma=25时,使用sigma统计方法。
  • sigma=0时,使用Min-Max统计方法。

disable_first_layer

输入

是否自动回退首层量化层。

可选。

数据类型:bool。

默认为True。

disable_last_layer

输入

是否自动回退尾层量化层。

可选。

数据类型:bool。

默认为True。

is_optimize_graph

输入

是否进行图优化。

可选。

数据类型:bool。

默认为True。

is_dynamic_shape

输入

指定输入的模型是否支持动态shape。

可选。输入模型支持动态shape时,另一配置参数input_shape也必须指定。

数据类型:bool。

默认为False。

  • True:输入的模型支持动态shape。
  • False:输入的模型为静态shape。

use_onnx

输入

是否使用onnx_runtime进行量化校准(onnx_runtime仅支持<2GB的模型量化),若模型大于2GB,建议关闭该参数,使用ACL进行校准。

可选。

数据类型:bool。

默认为True。

  • True:onnx_runtime量化校准。
  • False:ACL量化校准。

num_input

输入

网络输入数据的数量。

可选。

数据类型:int。

默认为0,若use_onnx配置为False,则必须手动输入模型输入数据的数量。

quant_param_ops

输入

选择需要量化的网络层。

可选。

数据类型:list。

默认值:['Conv', 'Gemm', 'MatMul']。

若使用ACL量化校准辅助量化时(即use_onnx配置为False),则该参数需配置为['Conv']。

atc_input_shape

输入

ATC工具转om模型的输入数据shape。

可选。

数据类型:String。

默认为None。

若use_onnx配置为False,则必须手动输入模型的输入shape,输入格式要求如下:

  1. 若模型为单个输入,则shape信息为"input_name:n,c,h,w";指定的节点必须放在双引号中。
  2. 若模型有多个输入,则shape信息--input_shape="input_name1:n1,c1,h1,w1;input_name2:n2,c2,h2,w2";不同输入之间使用英文分号分隔,input_name必须是转换前的网络模型中的节点名称。

graph_optimize_level

输入

图优化级别。

可选。

数据类型:int。

取值如下:

  • 0:默认为0,对浮点模型和量化后模型都不进行图优化。
  • 1:只对浮点模型进行图优化。
  • 2:对浮点模型和量化后的模型都进行图优化。

shut_down_structures

输入

需关闭的图优化结构列表。

可选。

数据类型:list。

默认为None,即对所有可优化结构进行量化。

取值范围:['ChangeGAPCONVOptimization', 'ChangeResizeOptimization', 'CombineMatmulOptimization', 'DeleteConcatOptimization', 'DoubleFuseBatchNormOptimization', 'DoubleReshapeOptimization', 'FastClipOptimization', 'FuseBatchNormOptimization', 'FuseDivMatmulOptimization', 'GeluErf2FastGeluOptimization', 'GeluErf2SigmoidOptimization', 'GeluErf2TanhOptimization', 'GeluTanh2SigmoidOptimization', 'LayerNormOptimization', 'Matmul2GemmOptimization', 'PatchMerging2ConvOptimizationV0', 'PatchMerging2ConvOptimizationV1', 'PatchMerging2ConvOptimizationV2', 'PatchMerging2ConvOptimizationV3', 'RemoveDoubleResizeOptimization', 'ReplaceAscendQuantOptimizationV1', 'ReplaceAscendQuantOptimizationV2', 'ReplaceConcatQuantOptimizationV1', 'ReplaceConcatQuantOptimizationV2', 'ReplaceConcatQuantOptimizationV3', 'ReplaceConcatQuantOptimizationV4', 'ReplaceConcatQuantOptimizationV5', 'ReplaceConcatQuantOptimizationV6', 'ReplaceConcatQuantOptimizationV7', 'ReplaceConcatQuantOptimizationV8', 'ReplaceConcatQuantOptimizationV9', 'ReplaceHardSigmoidOptimization', 'ReplaceLeakyReluOptimization', 'ReplaceMaxPoolBlockOptimizationV1', 'ReplaceMaxPoolBlockOptimizationV2', 'ReplaceRelu6Optimization', 'ReplaceReluOptimization', 'ReplaceReshapeTransposeOptimizationV1', 'ReplaceReshapeTransposeOptimizationV2', 'ReplaceReshapeTransposeOptimizationV3', 'ReplaceResizeQuantOptimization', 'ReplaceSigmoidOptimizationV1', 'ReplaceSigmoidOptimizationV2', 'ReplaceSoftmaxOptimizationV1', 'ReplaceSoftmaxOptimizationV2', 'Resize2ConvTransposeOptimization', 'SimplifyShapeOptimization', 'SimplifyShapeOptimizationV2'] 。

device_id

输入

昇腾AI处理器的DEVICE ID。

可选。

数据类型:int。

取值范围[0,7],默认值为0。

om_method

输入

onnx模型转换为om模型的方式。

可选。

数据类型:String。

支持配置为'aoe'和'atc',默认为'aoe',即通过aoe工具进行转换。

调用示例

from modelslim.onnx.squant_ptq import QuantConfig 
config = QuantConfig(disable_names=[],
                       quant_mode=0,
                     amp_num=0,
                     a_sym=True,
                     keep_acc={'admm': [False, 1000], 'easy_quant': [True, 1000], 'round_opt': False},
                     disable_first_layer=True,
                     disable_last_layer=True
)