torch.distributed.distributed_c10d._world.default_pg._get_backend(torch.device("npu")).get_hccl_comm_name

功能描述

从初始化完成的集合通信域中获取集合通信域名字。

接口原型

torch.distributed.distributed_c10d._world.default_pg._get_backend(torch.device("npu")).get_hccl_comm_name(rankid->int) -> String

注:接口为pytorch的ProcessGroup类,backend为npu backend的方法。ProcessGroup可以是default_pg,也可以是torch.distributed.distributed_c10d.new_group创建的非default_pg。

参数说明

rankid: 集合通信对应device的rankid

输出说明

string类型的集合通信域的名字

约束说明

1、使用该接口前确保init_process_group已被调用,且初始化的backend为hccl;

2、Pytorch2.1及以后版本与Pytorch2.1之前的版本对该接口调用方式不同,见实例。

支持的PyTorch版本

调用示例

1
2
3
4
5
6
7
8
import torch
import torch_npu
from torch.distributed.distributed_c10d import _get_default_group
default_pg = _get_default_group()
if torch.version > '2.0':
hcomm_info = default_pg._get_backend(torch.device("npu")).get_hccl_comm_name(rank)
else:
hcomm_info = default_pg.get_hccl_comm_name(rank)