当进行分布式训练时,需要通过昇腾软件中的HCCN Tool工具配置device的网卡IP,用于多个device间通信以实现网络模型参数的同步更新。如果用户需要使用HCCN Tool工具的其他功能(如检查网口Link状态),请参见《Atlas 中心训练服务器 23.0.x(23.0.3及其系列版本) HCCN Tool 接口参考》或《Atlas A2 中心推理和训练硬件 23.0.x(23.0.3及其系列版本) HCCN Tool 接口参考》。
Atlas 800 训练服务器(型号 9000)、Atlas 800 训练服务器(型号 9010)、Atlas 900 AI集群(型号 9000)、Atlas 300T 训练卡(型号 9000)、Atlas 300T Pro 训练卡(型号:9000)请参考《Ascend Training Solution 23.0.RC1 组网指南》的“参数面网络介绍>中大规模集群组网/小规模组网>参数面网络配置示例”章节中“配置训练节点”,通过HCCN_Tool配置NPU网口的device IP。
Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框请参考《Ascend Training Solution 23.0.0 组网指南》的“参数面网络配置介绍>配置示例(选择对应的产品)>配置训练节点”,通过HCCN_Tool配置NPU网口的device IP。