文档
注册

简介

大模型压缩是指将大语言模型(LLM)减小体积、减少计算资源消耗和加快推理速度的技术,压缩技术有助于在资源有限的设备上部署模型。

目前支持对包括但不限于表1中的大模型进行量化。

表1 大模型量化已验证PyTorch模型列表

模型名称

量化类型

w8a16

w8a8

稀疏量化

BaiChuan2-13B

-

-

BaiChuan2-7B

-

-

ChatGLM2-6B

-

ChatGLM3-6B

-

-

-

CodeGeeX2-6B

-

-

CodeLLama-34B

-

Gemma-7B

-

-

LLaMA2-13B

-

-

LLaMA-33B

-

-

LLaMA2-70B

-

LLaMA2-7B

-

-

LLaMA3-70B

-

-

LLaMA-65B

-

Qwen1.5-32B

-

-

Qwen1.5-72B

-

-

Qwen1.5-chat 72B

-

-

-

Qwen1.5-chat-14B

-

Qwen-14B

-

-

Qwen-72B

-

-

StarCoder-15.5B

-

-

starcoder2-15B

-

-

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词