下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

简介

大模型压缩是指将大语言模型(LLM)减小体积、减少计算资源消耗和加快推理速度的技术,压缩技术有助于在资源有限的设备上部署模型。

目前支持对包括但不限于表1中的大模型进行量化压缩。

表1 大模型压缩已验证PyTorch模型列表

模型名称

量化类型

w8a16

w8a8

稀疏量化

BaiChuan2-13B

-

-

BaiChuan2-7B

-

-

ChatGLM2-6B

-

ChatGLM3-6B

-

-

-

CodeGeeX2-6B

-

-

CodeLLama-34B

-

Gemma-7B

-

-

LLaMA2-13B

-

-

LLaMA-33B

-

-

LLaMA2-70B

-

LLaMA2-7B

-

-

LLaMA3-70B

-

-

LLaMA-65B

-

Qwen1.5-32B

-

-

Qwen1.5-72B

-

-

Qwen1.5-chat 72B

-

-

-

Qwen1.5-chat-14B

-

Qwen-14B

-

-

Qwen-72B

-

-

StarCoder-15.5B

-

-

starcoder2-15B

-

-

llava-1.6-13B

-

-

大模型压缩技术主要针对常规大语言模型进行量化压缩,但在量化拥有特殊结构的模型时,msModelSlim工具可能存在以下限制:

  • MOE模型支持W8A8_per-token量化场景、W8A16 per-channel量化场景和W8A16 per-group量化场景,不支持lowbit稀疏量化场景。
  • 多模态模型仅支持W8A16量化场景,不支持W8A8量化场景和lowbit算法稀疏量化场景。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词