run()
功能说明
运行量化算法,初始化Calibrator后通过run()函数来执行量化。
函数原型
calibrator.run(alib_amp=10, int_infer=False)
参数说明
参数名 |
输入/返回值 |
含义 |
使用限制 |
---|---|---|---|
calib_amp |
输入 |
用于决定混合精度的校准数据集数量,在QuantConfig的amp_num>0才会起作用。 |
可选。 数据类型:int。 默认值:10。 |
int_infer |
输入 |
bias是否使用int推理。 |
可选。 数据类型:bool。 默认值为False。 |
调用示例
from modelslim.pytorch.llm_ptq.llm_ptq_tools import Calibrator, QuantConfig quant_config = QuantConfig(dev_type='cpu', pr=0.5, mm_tensor=Flase) model = AutoModel.from_pretrained('THUDM/chatglm2-6b', torch_dtype=torch.float16, trust_remote_code=True).cpu() #根据模型实际路径配置 calibrator = Calibrator(model, quant_config, calib_data=dataset_calib, disable_level='L0') calibrator.run(int_infer=False) calibrator.save(qaunt_weight_save_path)
父主题: 大模型量化接口