简介
大模型压缩是指将大语言模型(LLM)减小体积、减少计算资源消耗和加快推理速度的技术,压缩技术有助于在资源有限的设备上部署模型。
目前支持对包括但不限于表1中的大模型进行量化。
模型名称 |
量化类型 |
||
---|---|---|---|
w8a16 |
w8a8 |
稀疏量化 |
|
BaiChuan2-13B |
- |
√ |
- |
BaiChuan2-7B |
- |
√ |
- |
ChatGLM2-6B |
- |
√ |
√ |
ChatGLM3-6B |
- |
- |
- |
CodeGeeX2-6B |
- |
√ |
- |
CodeLLama-34B |
- |
√ |
√ |
Gemma-7B |
- |
√ |
- |
LLaMA2-13B |
- |
√ |
- |
LLaMA-33B |
- |
- |
√ |
LLaMA2-70B |
√ |
√ |
- |
LLaMA2-7B |
- |
√ |
- |
LLaMA3-70B |
√ |
- |
- |
LLaMA-65B |
√ |
√ |
- |
Qwen1.5-32B |
- |
√ |
- |
Qwen1.5-72B |
√ |
- |
- |
Qwen1.5-chat 72B |
- |
- |
- |
Qwen1.5-chat-14B |
- |
√ |
√ |
Qwen-14B |
- |
√ |
- |
Qwen-72B |
√ |
- |
- |
StarCoder-15.5B |
- |
√ |
- |
starcoder2-15B |
- |
√ |
- |
父主题: 大模型压缩