昇腾社区首页
中文
注册

网络系统架构

一般来讲,大型训练计算集群,主要由单个机柜先完成柜内组网,之后由机柜联网形成AI集群。在大规模训练集群组网中,会规划计算区,存储区,AI计算区的业务面、存储面网络,通过核心交换机相连,实际项目中,在汇聚交换机端口数量充足时,也可以考虑直接通过汇聚交换机进行相连。

AI集群的网络平面规划和用途如下表所示:

网络平面

用途

参数面网络

实现多节点分布式训练时,多节点间的模型参数传输同步。

存储面网络(样本面网络)

主要用于访问存储区的高速大带宽互联的存储系统,读取用于训练模型的样本数据(因此存储面网络也可以称为样本面网络)、模型文件、ckpt文件(checkpoint,ckpt文件中保留了已训练的变量参数、网络权重值和神经网络结构图等信息)、训练过程日志、断点续训过程中的临时ckpt文件。

业务面网络

主要用于业务调度与管理、开局部署、计算节点与存储节点的系统访问、软件升级、拉取镜像等。

带外管理面网络

主要用于计算节点和其他设备的带外管理与操作。主要连接网络区设备管理口以及服务器BMC网口,为物理设备提供带外管理网络。该网络除物理设备管理流量外不承载其他业务流量。

关于训练计算设备的详细组网介绍可参见Link中的《Ascend Training Solution组网指南》。