从初始化完成的集合通信域中获取集合通信域名字。
torch.distributed.distributed_c10d._world.default_pg._get_backend(torch.device("npu")).get_hccl_comm_name(rankid->int) -> String
注:接口为pytorch的ProcessGroup类,backend为npu backend的方法。ProcessGroup可以是default_pg,也可以是torch.distributed.distributed_c10d.new_group创建的非default_pg。
rankid: 集合通信对应device的rankid
string类型的集合通信域的名字
1、使用该接口前确保init_process_group已被调用,且初始化的backend为hccl;
2、Pytorch2.1及以后版本与Pytorch2.1之前的版本对该接口调用方式不同,见实例。
1 2 3 4 5 6 7 8 |
import torch import torch_npu from torch.distributed.distributed_c10d import _get_default_group default_pg = _get_default_group() if torch.version > '2.0': hcomm_info = default_pg._get_backend(torch.device("npu")).get_hccl_comm_name(rank) else: hcomm_info = default_pg.get_hccl_comm_name(rank) |