下载
中文
注册
Atlas 800 9000多机多卡拉起训练作业时出现“cqe err status[12]”报错

Atlas 800 9000多机多卡拉起训练作业时出现“cqe err status[12]”报错

2024/02/20

192

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方模型训练HCCLcqe err status

问题现象描述

问题现象:

用户有11个计算节点,只要使用2节点多机多卡拉起训练作业均失败,查看plog日志有notify wait timeout报错,如图2所示,同时有cqe err status[12](重传超次error)。并查看芯片状态、错包数、本端和对端link状态、交换机的端口、连通性等均没有问题。

1报错信息1

2报错信息2

原因分析

  1. 可能是交换机配置文件问题;
  2. 可能是该节点插入交换机的端口、线缆问题;
  3. 可能是配置device ip、ip rule、ip route错误。

解决措施

  1. 2节点跟3节点交换机端口互换,互换后3节点和8节点打流正常,3节点跟其他节点起任务能够成功,2节点跟其他节点起多机多卡训练依旧不行;打流方法可参见《Atlas 中心训练服务器 HCCN Tool 接口参考》的“RoCE带宽时延测试”章节。
  2. 查看2节点hccl文件/etc/hccn.conf后,发现无法正常拉起训练作业的节点少配置了两个ip rule和ip route,按正确的配置信息配置后问题解决,配置方法可参见

    Atlas 中心训练服务器 HCCN Tool 接口参考》的“添加ip rule规则”章节。

    图1 /etc/hccn.conf正确显示图
    图2 /etc/hccn.conf错误显示图

本页内容