HCCL集群通信失败
2025/01/07
223
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 模型训练 | Rec SDK | HCCL集群通信 |
问题现象描述
HCCL集群通信失败。
原因分析
- 多机节点的NPU device ip不能互相ping通。
- 多机节点的NPU device的TLS配置不同。
- 其他
解决措施
- 检查多机节点的NPU device ip是否能互相ping通。以双机集群(节点A、B),每个节点8卡示例。
- 查询节点A的device ip:
for i in {0..7}; do hccn_tool -i $i -ip -g ; done
- 在节点B上ping节点A的device ip:
hccn_tool -i 0 -ping -g address 192.x.x.x
其中192.x.x.x为节点A的rank0的device ip;0为指定使用B节点rank0 device去ping对应ip。
若指令回显包含“0.00% packet loss”则说明能ping通;ping不通则需检查环境网络配置;
若device ip配置为IPv6,查询deivce ip指令和ping device指令有所区别,示例:
- 查询device ip:
for i in {0..7}; do hccn_tool -i $i -ip -inet6 -g; done
- ping指定device ip:
hccn_tool -i 0 -ping -inet6 -g ipv6_address x:x:x:x
- 查询device ip:
- 查询节点A的device ip:
- 检查多机节点的NPU device的TLS配置是否相同。
在两个节点上别分执行如下指令,查看配置是否相同:
for i in {0..7}; do hccn_tool -i $i -tls -g |grep switch; done
若配置不同,则需修改TLS配置。
TLS状态开关设置和证书信息修改的详细的方法请参照参与集合通信的服务器TLS信息不一致,HCCL初始化失败。
- 其他集合通信相关问题可参考《集合通信接口参考》的“FAQ”章节。
本页内容