简介

ModelSlim

ModelSlim，即昇腾压缩加速工具，一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。支持训练加速和推理加速两大场景，包括模型低秩分解、稀疏训练、训练后量化、量化感知训练等功能，昇腾AI模型开发用户可以灵活调用Python API接口，对模型进行性能调优，并支持导出不同格式模型，在昇腾AI处理器上运行。

ModelSlim针对开发者的差异化需求，提供了以下不同场景下的模型压缩方案：

训练加速：模型低秩分解、模型稀疏加速训练。
推理加速：训练后量化（ONNX）、训练后量化（PyTorch）、训练后量化（MindSpore）、量化感知训练、Transformer类模型权重剪枝调优、基于重要性评估的剪枝调优、模型蒸馏。

训练后量化

PTQ（Post-Training Quantization）即训练后量化，训练后量化会量化预训练的浮点模型和使用部分训练数据来校准模型。包含Data-Free和Label-Free算法，这两种训练后量化算法可在昇腾推理平台进行，同时支持有/无校准数据集的PTQ量化场景，可将Float浮点模型转换为定点INT8模型，达到模型压缩、减少计算量、缩短推理时延的目的。

Data-Free量化：无需获取输入数据集，即可对模型进行量化。通过翻转优化权重，多尺度渐进迭代优化的方法在无数据场景实现了有效量化。
Label-Free量化：用户需要提供少量数据集做矫正，相比于无数据量化，Label-Free量化的输入数据符合原数据分布，量化精度会更高。

量化感知训练

QAT（Quantization Aware Training ）即量化感知训练，是在模型中插入伪量化模块（quantizer）模拟量化模型在推理过程中进行的舍入（rounding）和钳位（clamping）操作，从而在训练过程中提高模型对量化效应的适应能力，获得更高的量化模型精度。在这个过程中，所有计算（包括模型正反向传播计算和伪量化节点计算）都是以浮点计算实现的，在训练完成后才量化为真正的INT8模型。

父主题： ModelSlim工具