MindSpore在线推理图缓存性能优化
2024/02/22
135
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 安装部署 | MindSpore | 在线推理图 |
问题现象描述
1.云脑上部署该应用时服务必须在10分钟之内启动,否则就会认为该服务异常;
2.由于一些大模型做首次推理时会耗时超过10分钟,导致大模型推理服务无法正常拉起;
3.本案例中,当模型hidden_layer设置成24层之后,首次推理时间12min,模型构图时间在30s左右,即使用上算子缓存意义不大;
解决措施
利用图缓存来解决,本案例中,通过图缓存耗时降低了70%;使用图缓存后,代码不能修改,否则图缓存无效;使用接口链接如下:
实现方案:
1.在set_context接口中指定compile_cache_path路径。
2.在本地做首次推理之后,就会在指定路径下生成图缓存。
3.制作镜像:将图缓存文件也打包到镜像中。
4.在云脑上部署服务。
本页内容