run()

功能说明

运行量化算法，初始化Calibrator后通过run()函数来执行量化。

函数原型

calibrator.run(alib_amp=10, int_infer=False)

参数说明

参数名	输入/返回值	含义	使用限制
calib_amp	输入	用于决定混合精度的校准数据集数量，在QuantConfig的amp_num>0才会起作用。	可选。数据类型：int。默认值：10。
int_infer	输入	bias是否使用int推理。	可选。数据类型：bool。默认值为False。

参数名

输入/返回值

含义

使用限制

calib_amp

输入

用于决定混合精度的校准数据集数量，在QuantConfig的amp_num>0才会起作用。

可选。

数据类型：int。

默认值：10。

int_infer

输入

bias是否使用int推理。

可选。

数据类型：bool。

默认值为False。

调用示例

from modelslim.pytorch.llm_ptq.llm_ptq_tools import Calibrator, QuantConfig
quant_config = QuantConfig(dev_type='cpu', pr=0.5, mm_tensor=Flase)
model = AutoModel.from_pretrained('THUDM/chatglm2-6b', torch_dtype=torch.float16, trust_remote_code=True).cpu()   #根据模型实际路径配置
calibrator = Calibrator(model, quant_config, calib_data=dataset_calib, disable_level='L0')
calibrator.run(int_infer=False) 
calibrator.save(qaunt_weight_save_path)

父主题： 大模型量化接口