加载模型时出现out of memory报错提示

问题描述

部署service服务,加载llama-65b模型时出现out of memory报错提示,如下图所示。

原因分析

权重太大,内存不足。

解决步骤

将config.json文件中ModelParam的npuMemSize调小,比如调成8。