Atlas系列硬件: Atlas 200l DK A2 开发者套件; Atlas 200l DK 开发者套件（型号：3000）; 加速模块、加速卡、智能小站、服务器、集群

异构计算架构: CANN社区版; CANN商用版

AI框架: MindSpore; TensorFlow框架模型（社区版）; TensorFlow框架模型（商用版）; PyTorch框架适配

昇腾推理引擎: MindIE

应用使能MindX: MindX DL; MindX Edge; MindX SDK

全流程开发工具: MindStudio

简介

大模型压缩是指将大语言模型（LLM）减小体积、减少计算资源消耗和加快推理速度的技术，压缩技术有助于在资源有限的设备上部署模型。

目前支持对包括但不限于表1中的大模型进行量化。

表1 大模型量化已验证PyTorch模型列表
模型名称	量化类型
模型名称	w8a16	w8a8	稀疏量化
BaiChuan2-13B	-	√	-
BaiChuan2-7B	-	√	-
ChatGLM2-6B	-	√	√
ChatGLM3-6B	-	-	-
CodeGeeX2-6B	-	√	-
CodeLLama-34B	-	√	√
Gemma-7B	-	√	-
LLaMA2-13B	-	√	-
LLaMA-33B	-	-	√
LLaMA2-70B	√	√	-
LLaMA2-7B	-	√	-
LLaMA3-70B	√	-	-
LLaMA-65B	√	√	-
Qwen1.5-32B	-	√	-
Qwen1.5-72B	√	-	-
Qwen1.5-chat 72B	-	-	-
Qwen1.5-chat-14B	-	√	√
Qwen-14B	-	√	-
Qwen-72B	√	-	-
StarCoder-15.5B	-	√	-
starcoder2-15B	-	√	-

父主题： 大模型压缩