Atlas 800 9000多机多卡拉起训练作业时出现“cqe err status[12]”报错-昇腾社区

Atlas 800 9000多机多卡拉起训练作业时出现“cqe err status[12]”报错

2024/02/20

246

暂无评分

我要评分

问题信息

问题来源	产品大类	产品子类	关键字
官方	模型训练	HCCL	cqe err status

问题现象：

用户有11个计算节点，只要使用2节点多机多卡拉起训练作业均失败，查看plog日志有notify wait timeout报错，如图2所示，同时有cqe err status[12]（重传超次error）。并查看芯片状态、错包数、本端和对端link状态、交换机的端口、连通性等均没有问题。

图1报错信息1

点击放大

图2报错信息2

点击放大

2节点跟3节点交换机端口互换，互换后3节点和8节点打流正常，3节点跟其他节点起任务能够成功，2节点跟其他节点起多机多卡训练依旧不行；打流方法可参见《Atlas 中心训练服务器 HCCN Tool 接口参考》的“RoCE带宽时延测试”章节。
查看2节点hccl文件/etc/hccn.conf后，发现无法正常拉起训练作业的节点少配置了两个ip rule和ip route，按正确的配置信息配置后问题解决，配置方法可参见
 《Atlas 中心训练服务器 HCCN Tool 接口参考》的“添加ip rule规则”章节。

图1 /etc/hccn.conf正确显示图

图2 /etc/hccn.conf错误显示图

本页内容