下载
中文
注册
HCCL集群通信失败

HCCL集群通信失败

2025/01/07

223

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方模型训练Rec SDKHCCL集群通信

问题现象描述

HCCL集群通信失败。

原因分析

  • 多机节点的NPU device ip不能互相ping通。
  • 多机节点的NPU device的TLS配置不同。
  • 其他

解决措施

  1. 检查多机节点的NPU device ip是否能互相ping通。以双机集群(节点A、B),每个节点8卡示例。

    1. 查询节点A的device ip:
      for i in {0..7}; do hccn_tool -i $i -ip -g ; done
    2. 在节点B上ping节点A的device ip:
      hccn_tool -i 0 -ping -g address 192.x.x.x

      其中192.x.x.x为节点A的rank0的device ip;0为指定使用B节点rank0 device去ping对应ip。

      若指令回显包含“0.00% packet loss”则说明能ping通;ping不通则需检查环境网络配置;

      若device ip配置为IPv6,查询deivce ip指令和ping device指令有所区别,示例:

      • 查询device ip:
        for i in {0..7}; do hccn_tool -i $i -ip -inet6 -g; done
      • ping指定device ip:
        hccn_tool -i 0 -ping -inet6 -g ipv6_address x:x:x:x

  2. 检查多机节点的NPU device的TLS配置是否相同。

    在两个节点上别分执行如下指令,查看配置是否相同:

    for i in {0..7}; do hccn_tool -i $i -tls -g  |grep switch; done

    若配置不同,则需修改TLS配置。

    TLS状态开关设置和证书信息修改的详细的方法请参照参与集合通信的服务器TLS信息不一致,HCCL初始化失败

  3. 其他集合通信相关问题可参考集合通信接口参考的“FAQ”章节。

本页内容