HCCL集群通信失败
问题现象
HCCL集群通信失败。
可能原因
- 多机节点的NPU device ip不能互相ping通。
- 多机节点的NPU device的TLS配置不同。
- 其他
解决方案
- 检查多机节点的NPU device ip是否能互相ping通。以双机集群(节点A、B),每个节点8卡示例。
- 查询节点A的device ip:
for i in {0..7}; do hccn_tool -i $i -ip -g ; done
- 在节点B上ping节点A的device ip:
hccn_tool -i 0 -ping -g address 192.x.x.x
其中192.x.x.x为节点A的rank0的device ip;0为指定使用B节点rank0 device去ping对应ip。
若指令回显包含“0.00% packet loss”则说明能ping通;ping不通则需检查环境网络配置;
若device ip配置为IPv6,查询deivce ip指令和ping device指令有所区别,示例:
- 查询device ip:
for i in {0..7}; do hccn_tool -i $i -ip -inet6 -g; done
- ping指定device ip:
hccn_tool -i 0 -ping -inet6 -g ipv6_address x:x:x:x
- 查询device ip:
- 查询节点A的device ip:
- 检查多机节点的NPU device的TLS配置是否相同。
在两个节点上别分执行如下指令,查看配置是否相同:
for i in {0..7}; do hccn_tool -i $i -tls -g |grep switch; done
若配置不同,则需修改TLS配置。
TLS状态开关设置和证书信息修改的详细的方法请参照《集合通信用户指南》的“参与集合通信的服务器TLS信息不一致,HCCL初始化失败”章节。
- 其他集合通信相关问题可参见《集合通信用户指南》的“FAQ”章节。
父主题: FAQ