网络系统架构
一般来讲,大型训练计算集群,主要由单个机柜先完成柜内组网,之后由机柜联网形成AI集群。在大规模训练集群组网中,会规划计算区,存储区,AI计算区的业务面、存储面网络,通过核心交换机相连,实际项目中,在汇聚交换机端口数量充足时,也可以考虑直接通过汇聚交换机进行相连。
AI集群的网络平面规划和用途如下表所示:
网络平面 |
用途 |
---|---|
参数面网络 |
实现多节点分布式训练时,多节点间的模型参数传输同步。 |
存储面网络(样本面网络) |
主要用于访问存储区的高速大带宽互联的存储系统,读取用于训练模型的样本数据(因此存储面网络也可以称为样本面网络)、模型文件、ckpt文件(checkpoint,ckpt文件中保留了已训练的变量参数、网络权重值和神经网络结构图等信息)、训练过程日志、断点续训过程中的临时ckpt文件。 |
业务面网络 |
主要用于业务调度与管理、开局部署、计算节点与存储节点的系统访问、软件升级、拉取镜像等。 |
带外管理面网络 |
主要用于计算节点和其他设备的带外管理与操作。主要连接网络区设备管理口以及服务器BMC网口,为物理设备提供带外管理网络。该网络除物理设备管理流量外不承载其他业务流量。 |
父主题: 软硬件架构