下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

大模型量化

大模型量化工具将高位浮点数转为低位的定点数,例如16bit降低到8bit,直接减少模型权重的体积,生成量化参数和权重文件。在无需训练成本的前提下,完成大模型的训练后压缩并最大程度保障其精度。

目前支持对包括但不限于表1中的大模型进行量化。

表1 大模型量化已验证模型列表

模型名称

框架

ChatGLM_V2-6B

PyTorch

LLaMA2-13B

PyTorch

前提条件

  • 仅支持在以下产品中使用。
    • Atlas 推理系列产品
    • Atlas 训练系列产品
    • Atlas A2训练系列产品
  • 已参考环境准备,完成CANN开发环境的部署、以及PyTorch 2.0.1及以上版本的框架和npu插件、Python环境变量配置。
  • 大模型量化工具须执行命令安装如下依赖。

    如下命令如果使用非root用户安装,需要在安装命令后加上--user,例如:pip3 install onnx --user

    pip3 install numpy==1.25.2
    pip3 install transformers        #需大于等于4.29.1版本,LLaMA模型需指定安装4.29.1版本
    pip3 install accelerate==0.21.0  #若需要使用NPU多卡并行方式对模型进行量化,需大于等于0.28.0版本
    pip3 install tqdm==4.66.1
  • (可选)如果需要在大模型量化工具中使用NPU多卡并行的方式对模型进行量化,需关闭NPU设备中的虚拟内存,并手动配置量化将会执行的设备序列环境。
    export PYTORCH_NPU_ALLOC_CONF=expandable_segments:False # 关闭NPU的虚拟内存
    export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3 #配置量化将会执行的设备序列环境

    Atlas 训练系列产品Atlas A2训练系列产品支持此功能。

功能实现流程

图1 量化接口调用流程

关键步骤说明如下:

  1. 用户准备原始模型和校准数据。
  2. 使用离群值抑制功能对LLM模型进行离群值抑制。非LLaMA可跳过此步骤,直接执行步骤3。
    1. 使用AntiOutlierConfig生成离群值抑制配置。
    2. 调用AntiOutlier接口,将模型、校准数据等传入,生成抑制器。
    3. 调用抑制器的process()方法对原始模型进行离群值抑制。
  3. 使用QuantConfig生成量化配置。
  4. 根据原始模型、量化配置和校准数据,调用Calibrator接口构建量化校准对象。
  5. 调用生成的量化校准对象的run()方法对原始模型进行量化。
  6. 调用生成的量化校准对象的save()接口保存量化后的模型,包括模型量化权重和模型相关参数,用于后续量化模型的部署任务。

更多量化实例请参考“${INSTALL_DIR}/tools/modelslim/pytorch/llm_ptq/README.md”获取,${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。例如,若安装的Ascend-cann-toolkit软件包,则安装后文件存储路径为:$HOME/Ascend/ascend-toolkit/latest。

量化步骤(以ChatGLM2-6B为例)

  1. 用户自行准备模型、权重文件和校准数据,本样例以ChatGLM2-6B为例,点击获取链接自行下载权重文件,并上传至服务器文件夹内,如上传至“chatglm2”文件夹,目录示例如下:
    ├── config.json
    ├── configuration chatglm.py
    ├── modeling_chatglm.py
    ├── pytorch_model-00001-of-00007.bin
    ├── pytorch_model-00002-of-00007.bin
    ├── pytorch_model-00003-of-00007.bin
    ├── pytorch_model-00004-of-00007.bin
    ├── pytorch_model-00005-of-00007.bin
    ├── pytorch_model-00006-of-00007.bin
    ├── pytorch_model-00007-of-00007.bin
    ├── pytorch_model.bin.index.json
    ├── quantization.py
    ├── README.md
    ├── tokenization_chatglm.py
    ├── tokenizer.model
    ├── tokenizer_config.json

    需注意,大模型量化工具建议在大模型下游任务评估流程打通的前提下使用,请自行调试源码后进行如下量化配置。

  2. ChatGLM_V2-6B模型进行量化前请执行如下命令安装所需依赖,若运行量化工具过程中提示缺失某个依赖,请根据提示安装。
    pip3 install protobuf==4.24.1
    pip3 install sentencepiece==0.1.99
    pip3 install sympy==1.11.1
  3. 新建模型的量化脚本quant.py,编辑quant.py文件,根据实际的量化场景导入样例代码,参考加粗字体信息提示,并根据实际情况进行修改。
    • W8A8量化场景导入的样例代码如下:
      # 导入相关依赖
      import torch  # 若需要在npu上进行量化,则需要另外执行import torch_npu
      from transformers import AutoTokenizer, AutoModel
      
      # for local path
      tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path='./chatglm2', trust_remote_code=True)
      model = AutoModel.from_pretrained(
          pretrained_model_name_or_path='./chatglm2',
          trust_remote_code=True,
          torch_dtype=torch.float32 #如果需要在npu上进行多卡量化,需要先参考前提条件进行配置,并配置以下参数device_map='auto', torch_dtype=torch.float16 
      )
      # 在npu上进行量化时,单卡校准需将模型移到npu上model = model.half().npu(),多卡校准时不需# 准备校准数据,请根据实际情况修改
      calib_list = ["中国的首都在哪里?",
                    "请做一首诗歌:",
                    "我想要学习python,该怎么学习?",
                    "请帮我写一篇关于大模型推理优化的任职报告:",
                    "中国最值得去的几个景点"]
      #获取校准数据函数定义
      def get_calib_dataset(tokenizer, calib_list):
          calib_dataset = []
          for calib_data in calib_list:
              inputs = tokenizer([calib_data], return_tensors='pt')  
              # 若需要在npu上进行量化,则需要设置将数据移到npu上inputs = inputs.npu()         
              print(inputs)
              calib_dataset.append([inputs.data['input_ids'], inputs.data['position_ids'], inputs.data['attention_mask']])
          return calib_dataset
      
      dataset_calib = get_calib_dataset(tokenizer, calib_list)  #校准数据获取
      
      # 量化配置,请根据实际情况修改
      from modelslim.pytorch.llm_ptq.llm_ptq_tools import Calibrator, QuantConfig    # 导入量化配置接口
      # 使用QuantConfig接口,配置量化参数,并返回量化配置实例
      quant_config = QuantConfig(
          w_bit=8,       
          disable_names=['transformer.encoder.layers.0.self_attention.query_key_value','transformer.encoder.layers.0.self_attention.dense', 'transformer.encoder.layers.0.mlp.dense_h_to_4h'], 
          dev_type='cpu', # 在npu进行量化时,则需要先参考前提条件进行配置,然后配置以下参数dev_type='npu'dev_id=model.device.index,其中dev_id为正确设备号
          act_method=3,
          pr=0.5, 
          mm_tensor=False
        )  
      #使用Calibrator接口,输入加载的原模型、量化配置和校准数据,定义校准
      calibrator = Calibrator(model, quant_config, calib_data=dataset_calib, disable_level='L1')
      calibrator.run()     #使用run()执行量化
      calibrator.save('./quant_weight')      #使用save()保存模型量化参数,请根据实际情况修改路径
      print('Save quant weight success!')
    • W8A16量化场景导入的样例代码如下:
      # 导入相关依赖
      import torch  # 若需要在npu上进行量化,则需要另外执行import torch_npu
      from transformers import AutoTokenizer, AutoModel
      
      # for local path
      tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path='./chatglm2', trust_remote_code=True) 
      model = AutoModel.from_pretrained(
          pretrained_model_name_or_path='./chatglm2',
          trust_remote_code=True,
          torch_dtype=torch.float32 # 如果需要在npu上进行多卡量化,需要先参考前提条件进行配置,然后配置以下参数device_map='auto', torch_dtype=torch.float16
      ) 
      # 在npu上进行量化时,单卡校准需将模型移到npu上model = model.half().npu(),多卡校准时不需要
      # 准备校准数据,请根据实际情况修改W8A16 Data-Free模式下请忽略此步骤
      calib_list = ["中国的首都在哪里?",
                    "请做一首诗歌:",
                    "我想要学习python,该怎么学习?",
                    "请帮我写一篇关于大模型推理优化的任职报告:",
                    "中国最值得去的几个景点"]
      #获取校准数据函数定义
      def get_calib_dataset(tokenizer, calib_list):
          calib_dataset = []
          for calib_data in calib_list:
              inputs = tokenizer([calib_data], return_tensors='pt')  # 若需要在npu上进行量化,则需要将数据移到npu上inputs = inputs.npu()         
              print(inputs)
              calib_dataset.append([inputs.data['input_ids'], inputs.data['position_ids'], inputs.data['attention_mask']])
          return calib_dataset
      
      dataset_calib = get_calib_dataset(tokenizer, calib_list)  #校准数据获取
      
      # 量化配置,请根据实际情况修改
      from modelslim.pytorch.llm_ptq.llm_ptq_tools import Calibrator, QuantConfig    # 导入量化配置接口
      # 使用QuantConfig接口,配置量化参数,并返回量化配置实例
      quant_config = QuantConfig(
          w_bit=8, 
          a_bit=16,         
          disable_names=[], 
          quant_method=0,
          dev_type='cpu', # 如果需要使用npu进行量化校准,则需要配置以下参数dev_type='npu',dev_id=model.device.index。其中dev_id为正确设备号
          w_sym=False,
          mm_tensor=False
        )  
      #使用Calibrator接口,输入加载的原模型、量化配置和校准数据,定义校准
      calibrator = Calibrator(model, quant_config, calib_data=dataset_calib, disable_level='L1')  # Data-Free模式改为calibrator = Calibrator(model, quant_config, disable_level='L0')
      calibrator.run()     #使用run()执行量化
      calibrator.save('./quant_weight')      #使用save()保存模型量化参数,请根据实际情况修改路径
      print('Save quant weight success!')

    需注意,因为在存储量化参数过程中存在反序列化风险,所以已通过在存储过程中,将保存的量化结果文件夹权限设置为750,量化结果文件权限设置为400来消减风险。

  4. 启动模型量化任务,并在指定的输出目录获取模型量化参数,量化后权重文件的介绍请参见量化后权重文件,用于后续的推理部署任务。
    python3 quant.py

    量化任务完成后,可能会存在模型精度下降的情况,可以参考精度保持策略进行配置优化减少精度损耗。

量化后权重文件

量化权重保存为npy文件,储存格式为字典,其中key值为各层Linear的名字,例如ChatGlm2 6B模型的transformer.encoder.layers.0.self_attention.query_key_value,value值为第0层query_key_value的Linear权重。

├── anti_fp_norm.npy   #LLaMA模型且已启用离群抑制功能,具体操作请参见使用离群值抑制功能,将会生成此文件。antioutlier算法生成浮点权重中的norm层权重文件,用于量化层的input和post norm的权重适配
├── deq_scale.npy      #W8A8反量化参数权重文件,Tensor数据类型为int64,deq_scale已针对反量化算子进行数据类型转换,可直接适配算子
├── fp_bias.npy        #原始浮点模型linear层的bias权重文件,Tensor数据类型为float32
├── input_offset.npy   #激活值量化偏移值权重文件,Tensor数据类型为float32
├── input_scale.npy    #激活值量化缩放因子权重文件,Tensor数据类型为float32
├── kv_cache_offset.npy    #kv linear激活值量化偏移值权重文件,Tensor数据类型为float32
├── kv_cache_scale.npy   #kv linear激活值量化缩放因子权重文件,Tensor数据类型为float32
├── quant_bias.npy     #W8A8反量化参数权重文件,Tensor数据类型为int32,quant_bias已考虑原始浮点模型linear层的bias值
├── quant_weight.npy   #量化权重文件,Tensor数据类型为int8
├── weight_offset.npy  #权重量化参数文件,Tensor数据类型为float32
├── weight_scale.npy   #权重量化参数文件,Tensor数据类型为float32

推理部署时读取上述文件的示例代码:quant_param_dict = np.load("xxx.npy", allow_pickle=True).item()

精度保持策略

在量化权重生成后,可以使用伪量化模型进行推理,检验伪量化精度是否正常。伪量化是指通过torch,通过浮点运算完成量化模型运算逻辑,运算过程中的数据和真实量化的数据差异只在算子精度上。如果伪量化精度不满足预期,真实量化结果也将无法满足预期。在调用Calibrator.run()方法后,构建Calibrator时传入的model会被替换为伪量化模型,可以直接调用进行前向推理,用来测试对话效果。如果伪量化结果不理想,可以参考以下手段进行调优:

  1. 调整校准数据集:量化模型权重生成对校准数据集有一定依赖,需要根据模型运行场景选取适当的校准数据集。在伪量化精度较差时,可以适当增加校准数据集的数量。
  2. 设置Calibrator接口中的“disable_level”参数:配置Calibrator接口中的自动回退等级,可以设置为L0、L1,L2等,依次回退的线性层个数为0、1、2等,在模型精度损失较大时可以适当提升回退等级。

    以ChatGlm2_6b为例:

    观察到模型伪量化对话效果不理想,考虑进行回退操作。将disable_level设置为L1,生成量化权重。导出的量化权重缺少了key值'transformer.encoder.layers.0.mlp.dense_4h_to_h'对应的权重数据,则该线性层被回退。

    如果需要回退整层layer,需要进一步生成量化权重。缺少的linear位于第0层,在QuantConfig接口中的“diable_names”增加该层其余的线性层:'transformer.encoder.layers.0.self_attention.query_key_value','transformer.encoder.layers.0.self_attention.dense', 'transformer.encoder.layers.0.mlp.dense_h_to_4h'。再次生成的量化权重即为整层layer回退的量化权重。

    注意:不同模型的回退层存在差别,甚至校准数据集选取的不同也会导致回退层位置发生变化。在回退个数少的时候,回退指定层数为N后,会自动再回退最后一个线性层,总回退数是N+1;回退个数设置较大时,这个最后一个线性层会包含在在N层里面,所以总共就回退了N层。因为不同模型对最后的分类层的敏感度不同,回退个数的多少的界限也不同。

  3. 引入离群值抑制AntiOutlier:建议LLaMA系列模型采用此策略。在模型加载和模型量化之间插入离群值抑制代码,对模型进行离群值抑制,并调用PyTorch接口model.save_pretrained,保存离群值抑制后的浮点模型。

    以Llama13B为例:

    # 离群值抑制
    print("outlier suppression start...")
    anti_config = AntiOutlierConfig(
        anti_method="m2",
        dev_type='cpu'   # 在npu进行量化时,则需要配置以下参数dev_type='npu',dev_id=model.device.index。其中dev_id为正确设备号
    )
    anti_outlier = AntiOutlier(model, calib_data=dataset_calib, cfg=anti_config)
    anti_outlier.process()
    print("outlier suppression success...")
    # save float weight
    model.save_pretrained("./llama2-13b_outlier")
  4. 配置QuantConfig接口中的“pr”:当pr设置为0.5时,导出的量化权重在一定范围内存在随机性,设置为1.0时可以避免随机性。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词