下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

QuantConfig

功能说明

量化参数配置类,保存量化过程中配置的参数。

函数原型

QuantConfig(w_bit=8, a_bit=8, act_method=1, disable_names=None, w_hessian=False, pr=1.0, mm_tensor=True, dev_type='cpu')

参数说明

参数名

输入/返回值

含义

使用限制

w_bit

输入

权重量化bit。

可选。

数据类型:int。

默认为8,不支持修改。

a_bit

输入

激活层量化bit。

可选。

数据类型:int。

默认为8,不支持修改。

act_method

输入

激活值量化方法。

可选。

数据类型:int。

可选值如下所示,默认为1。

  • 1代表Label-Free场景的min-max量化方式。
  • 2代表Label-Free场景的histogram量化方式。
  • 3代表Label-Free场景的自动混合量化方式,LLM大模型场景下推荐使用。

disable_names

输入

需排除量化的节点名称,即手动回退的量化层名称。

如精度太差,推荐回退量化敏感层,如分类层、输入层、检测head层等。

当前该参数为空时会自动回退最后一层,无需手动指定。例如LLaMA-13B模型的[lm_head],ChatGLM_V2-6B的[transformer.output_layer]。

可选。

数据类型:object。

默认值None。

w_hessian

输入

是否开启hessian(海森矩阵)统计。

可选。

数据类型:bool。

默认值:False。

pr

输入

量化选择概率。

可选。

数据类型:float。

取值范围:[0,1]。

默认值:1.0,建议取值0.5。

mm_tensor

输入

选择进行per-channel量化或per-tensor量化。

可选。

数据类型:bool。

默认值:True。

  • True: per-tensor量化。
  • False: per-channel量化,建议选择该量化方式。

dev_type

输入

device类型。

可选。

数据类型:object。

默认为'cpu',不支持用户修改。

调用示例

from modelslim.pytorch.llm_ptq.llm_ptq_tools import Calibrator, QuantConfig
quant_config = QuantConfig(pr=0.5, mm_tensor=Flase)
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词