文档
注册

组网方案

由于MindX DL的核心调度组件Volcano目前部署在k8s的管理节点。为保证业务健康稳定。根据k8s的部署要求作出如下建议,客户可根据自身业务特点作出调整。

  1. 管理节点与计算、存储节点分离,建议使用单独服务器部署。
  2. 若集群规模较大或者对业务可靠性要求较高,管理节点需使用多节点方式。

部署逻辑示意图

图1 部署逻辑示意图

一个完整的深度学习平台从逻辑上分为管理节点、计算节点、存储节点。各类节点主要功能如下:

  • 管理节点:管理集群,负责分发训练、推理任务到各个计算节点执行,完成深度学习平台的数据管理、任务管理、模型管理和日志查看等功能。
  • 计算节点:实际执行训练、推理任务的节点。
  • 存储节点:存储平台数据和用户数据,如平台日志、用户上传的数据集、训练脚本、训练输出的模型等。

网络平面划分为:

  • 业务面:用于集群业务管理。管理节点和计算节点之间连接。
  • 存储面:用于访问存储节点。管理节点和计算节点连接到存储节点上。
  • 参数面:用于分布式训练时,训练节点之间的参数交换。训练节点之间连接。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词