下载
中文
注册
集合通信每个节点参与通信的卡数不一致出现报错

集合通信每个节点参与通信的卡数不一致出现报错

2024/02/20

97

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方模型训练HCCL节点、通信

问题现象描述

问题现象: 3节点集群进行训练时save模型为保证负载均衡,3节点集群划分通信域为3+3+2分布,导致集群校验不同节点device num不同上报失败。如图1 报错信息所示。

图1 报错信息

原因分析

HCCL集合通信存在限制:

要求每个节点参与集合通信的昇腾AI处理器的数量需保持一致。

排查方法

通过每个节点的plog日志查询该节点参与通信的device个数,查看每个节点参与通信的device个数是否一致。

图2 日志信息1
图3 日志信息2
图4 日志信息3

解决措施

当前由于HCCL的通信限制,用户需调整通信策略,保证集群每个节点参与通信的device个数一致。

本页内容