组网要求
由于集群调度的核心调度组件Volcano目前是部署在K8s(即Kubernetes)的管理节点,为保证业务健康稳定,部署管理节点根据K8s的部署要求作出如下建议,客户可根据自身业务特点作出调整。
- 管理节点与计算节点、存储节点分离,建议使用单独服务器部署。
- 若集群规模较大或者对业务可靠性要求较高,管理节点需使用多节点方式。
部署逻辑示意图
图1 部署逻辑示意图
数据中心集群中的节点类型一般分为以下三种:
- 管理节点(即Master节点):管理集群,负责分发训练、推理任务到各个计算节点执行,可安装与master节点相关联的集群调度组件。
- 计算节点(即Worker节点):实际执行训练、推理任务,可安装与Worker节点相关联的集群调度组件。
- 存储节点:存储数据集、训练输出的模型等数据。
用户需要将网络平面划分为:
父主题: 硬件