在容器内执行om推理报acl.rt.set_device failed ret=507033错误
2023/06/05
1k
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型推理 | 应用开发AscendCL | 507033、CANN、报错码 |
问题现象描述
在容器内执行OM推理时,推理失败。
报错现象:
图1 报acl.rt.set_device failed ret=507033错误

原因分析
可能原因:
- 环境异常,驱动有问题。
- 该ID芯片可能被其他容器占用。
- 使用算力切分后,不可使用整张卡。
排查方法
排查方法:
- 参考CANN软件安装指南,npu-smi info查看驱动是否正常。
- 使用docker inspect <container ID> |grep davinci可以查看容器占用了哪个芯片。
图2 查看容器芯片占用情况

解决措施
使用npu-smi info发现客户做了算力切分。但在起容器时使用的还是整张卡。销毁vNPU或者起容器时占用算力切分后的vNPU卡。
本页内容