集合通信每个节点参与通信的卡数不一致出现报错
2024/02/20
97
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | HCCL | 节点、通信 |
问题现象描述
问题现象: 3节点集群进行训练时save模型为保证负载均衡,3节点集群划分通信域为3+3+2分布,导致集群校验不同节点device num不同上报失败。如图1 报错信息所示。
原因分析
HCCL集合通信存在限制:
要求每个节点参与集合通信的昇腾AI处理器的数量需保持一致。
排查方法
通过每个节点的plog日志查询该节点参与通信的device个数,查看每个节点参与通信的device个数是否一致。
图2 日志信息1

图3 日志信息2

图4 日志信息3

解决措施
当前由于HCCL的通信限制,用户需调整通信策略,保证集群每个节点参与通信的device个数一致。
本页内容