安装配置MPI
HCCL的通信域初始化依赖MPI拉起多个进程,所以进行HCCL的代码样例编写前,需要先安装配置MPI软件包。
如果通信网卡使用IPv4协议,需要安装MPI 3.2.1版本;如果通信网卡使用IPv6协议,则需要安装Open MPI-4.1.5版本。
- 安装MPI软件包。
下面操作以安装MPI 3.2.1版本的软件包为例。
- 配置网络节点信息,此步骤仅在通信网卡使用IPv6协议时进行,若使用IPv4协议,跳过即可。
将运行环境的网卡IPv6地址加入到“/etc/hosts”文件中,如下图所示:
其中node3、node4为相应节点的hostname。
注意如果是Euler OS操作系统,需要执行nmcli c reload命令使更新后的“/etc/hosts”文件生效。
- 配置当前操作节点到集群通信节点的SSH信任关系,以支持集群通信节点远程登录。
以下仅为操作示例:
- 在当前操作节点生成密钥信息(如若环境中存在,可不重复执行):
ssh-keygen -t rsa
例如密钥信息生成后,存储在“/root/.ssh/id_rsa.pub”文件中。
- 将操作节点公钥复制到集群通信其他节点,实现SSH密钥登录远程主机。
针对图1中的node3与node4节点,示例如下:
ssh-copy-id -i /root/.ssh/id_rsa.pub node3_ipv6_address ssh-copy-id -i /root/.ssh/id_rsa.pub node4_ipv6_address
- SSH远程登录node3与node4,确认是否可以直接登录。
- 在当前操作节点生成密钥信息(如若环境中存在,可不重复执行):
- 配置MPICH启动参数,此步骤仅在通信网卡使用IPv6协议时进行,若使用IPv4协议,跳过即可。
export HYDRA_LAUNCHER_EXTRA_ARGS="-B 本节点的IPv6网卡名"
父主题: 样例代码