我要评分

文档获取效率

文档正确性

内容完整性

文档易理解

在线提单

论坛求助

昇腾小AI

简介

大模型压缩是指将大语言模型（LLM）减小体积、减少计算资源消耗和加快推理速度的技术，压缩技术有助于在资源有限的设备上部署模型。

目前支持对包括但不限于表1中的大模型进行量化。

表1 大模型量化已验证PyTorch模型列表
模型名称	量化类型
模型名称	w4a16	w8a16	w8a8	稀疏量化
BaiChuan2-13B	√	-	√	-
BaiChuan2-7B	-	-	√	-
ChatGLM2-6B	-	-	√	√
ChatGLM3-6B	√	-	-	-
CodeGeeX2-6B	-	-	√	-
CodeLLama-34B	-	-	√	√
Gemma-7B	-	-	√	-
LLaMA2-13B	-	-	√	-
LLaMA-33B	-	-	-	√
LLaMA2-70B	-	√	√	-
LLaMA2-7B	-	-	√	-
LLaMA3-70B	√	√	-	-
LLaMA-65B	-	√	√	-
Qwen1.5-32B	-	-	√	-
Qwen1.5-72B	√	√	-	-
Qwen1.5-chat 72B	√	-	-	-
Qwen1.5-chat-14B	√	-	√	√
Qwen-14B	-	-	√	-
Qwen-72B	-	√	-	-
StarCoder-15.5B	-	-	√	-
starcoder2-15B	-	-	√	-

父主题： 大模型压缩