文档
注册

概述

当前流式视频流和高清数据流等场景对推理的实时性要求高,而通信延时导致大模型无法在数据中心部署,需要将其压缩后部署在边侧场景。尤其很多工业应用场景存在性能要求高,计算资源受限的情况。而千亿、万亿以上大模型在推理时需要庞大的显存和密集的计算资源,无法满足生产环境下的高吞吐、低延迟、低成本需求,导致大模型的落地成本高、部署困难、无法实际应用。

大模型压缩调优支持通过剪枝、蒸馏、量化等模型压缩技术推出应对不同任务场景的小模型,以便更快地推进企业在不同下游任务中实现大模型的落地应用。目前大模型压缩调优已支持紫东.太初10亿大模型的4个下游任务压缩调优。

CANN 6.0.RC1的后续版本将不再提供大模型微调功能,mxOps将会在下个版本退出,使用时请注意软件版本信息。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词