简介
大模型压缩是指将大语言模型(LLM)减小体积、减少计算资源消耗和加快推理速度的技术,压缩技术有助于在资源有限的设备上部署模型。
目前支持对包括但不限于表1中的大模型进行量化。
模型名称 |
量化类型 |
||
---|---|---|---|
w8a16 |
w8a8 |
稀疏量化 |
|
BaiChuan2-13B |
- |
√ |
- |
BaiChuan2-7B |
- |
√ |
- |
ChatGLM2-6B |
- |
√ |
√ |
ChatGLM3-6B |
- |
- |
- |
CodeGeeX2-6B |
- |
√ |
- |
CodeLLama-34B |
- |
√ |
√ |
Gemma-7B |
- |
√ |
- |
LLaMA2-13B |
- |
√ |
- |
LLaMA-33B |
- |
- |
√ |
LLaMA2-70B |
√ |
√ |
- |
LLaMA2-7B |
- |
√ |
- |
LLaMA3-70B |
√ |
- |
- |
LLaMA-65B |
√ |
√ |
- |
Qwen1.5-32B |
- |
√ |
- |
Qwen1.5-72B |
√ |
- |
- |
Qwen1.5-chat 72B |
- |
- |
- |
Qwen1.5-chat-14B |
- |
√ |
√ |
Qwen-14B |
- |
√ |
- |
Qwen-72B |
√ |
- |
- |
StarCoder-15.5B |
- |
√ |
- |
Starcoder2-15B |
- |
√ |
- |
llava-1.6-13B |
√ |
- |
- |
大模型压缩技术主要针对常规大语言模型进行量化压缩,但在量化拥有特殊结构的模型时,msModelSlim工具可能存在以下限制:
- MOE模型支持W8A8_per-token量化场景、W8A16 per-channel量化场景和W8A16 per-group量化场景,不支持lowbit稀疏量化场景。
- 多模态模型仅支持W8A16量化场景,不支持W8A8量化场景和lowbit算法稀疏量化场景。
父主题: 大模型压缩