下载
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
昇腾小AI

组网要求

由于集群调度的核心调度组件Volcano目前是部署在K8s(即Kubernetes)的管理节点,为保证业务健康稳定,部署管理节点根据K8s的部署要求作出如下建议,客户可根据自身业务特点作出调整。

  1. 管理节点与计算节点、存储节点分离,建议使用单独服务器部署。
  2. 若集群规模较大或者对业务可靠性要求较高,管理节点需使用多节点方式。

部署逻辑示意图

图1 部署逻辑示意图

数据中心集群中的节点类型一般分为以下三种:

  • 管理节点(即Master节点):管理集群,负责分发训练、推理任务到各个计算节点执行,可安装与master节点相关联的集群调度组件。
  • 计算节点(即Worker节点):实际执行训练、推理任务,可安装与Worker节点相关联的集群调度组件。
  • 存储节点:存储数据集、训练输出的模型等数据。

用户需要将网络平面划分为:

  • 业务面:用于K8s集群业务管理。
  • 存储面:一般用于从存储节点读取训练用的数据集。因为对带宽有要求,所以建议单独组网,将训练节点和存储节点联通。
  • 参数面:用于分布式训练时训练节点之间的参数交换以及训练节点之间连接,请参考Ascend Training Solution 23.0.RC1 组网指南,该文档提供华为训练计算设备(包括Atlas 800 训练服务器Atlas 900 PoD(型号 9000)等)搭建组网的相关说明。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词