适用场景
- 业务场景:DVPP,昇腾模型算法,模型转化,精度调优、应用/算子开发,性能调优、TensorFlow训练
- 适用处理器:Atlas 200/300/500 推理产品、Atlas 推理系列产品、Atlas 训练系列产品
- 处理器形态:EP、RC
现象描述
PCIE卡上昇腾AI处理器和MCU之间心跳连接失败,日志打印如图1类似信息。
图1 心跳连接失败
可能原因
针对上述现象,可能存在以下原因:
- PCIE标卡上昇腾AI处理器版本和MCU版本不匹配,导致不支持心跳功能。
- 昇腾AI处理器和MCU之间的通路有问题,导致心跳发送不出去。
处理步骤
针对上述可能原因,可以参考以下方法处理:
- 查看PCIE标卡昇腾AI处理器的版本是否与MCU版本配套。
请查看对应版本的版本匹配兼容性列表。如果确认MCU版本不符合,请升级MCU版本,具体升级方法可以查看配套的产品手册。版本查询命令:
- 查询昇腾AI处理器版本:cat ${INSTALL_DIR}/xx模块/version.info
- 查询MCU版本:./npu-smi upgrade -b mcu -i <npu-id>
- 如果昇腾AI处理器的版本与MCU版本配套正常,则可能是通信线路异常。
可以通过示波器检查线路,确认是否线路异常。如果是两者链路有问题,请联系技术支持处理。