文档
注册

训练

每个训练场景中安装的组件与安装部署的场景一一对应。

表1 训练任务场景

安装场景选择

组件

任务类型

部署任务需要完成的操作

说明

全量部署场景

Ascend Docker Runtime

Ascend Device Plugin

Volcano

HCCL-Controller

NodeD

NPU-Exporter

Resilience-Controller

Elastic-Agent

  • vcjob(Volcano的自定义资源对象)
  • Deployment(K8s的资源对象)

可参考NPU训练任务中的说明熟悉基础流程,然后尝试后续章节,如:使用命令行或者通过编程的方式下发NPU训练任务。最后,还可以融入高级特性

每个场景提供的功能请参考安装部署时的说明。

集群调度场景

Ascend Docker Runtime

Ascend Device Plugin

Volcano

HCCL-Controller(可选)

NodeD(可选)

NPU-Exporter(可选)

设备纳管场景

Ascend Docker Runtime

Ascend Device Plugin(启动参数配置volcanoType为false)

NPU-Exporter(可选)

  • job(K8s的资源对象)
  • Deployment(K8s的资源对象)
  • 其他资源类型
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词