训练
每个训练场景中安装的组件与安装部署的场景一一对应。
安装场景选择 |
组件 |
任务类型 |
部署任务需要完成的操作 |
说明 |
---|---|---|---|---|
全量部署场景 |
Ascend Docker Runtime Ascend Device Plugin Volcano HCCL-Controller NodeD NPU-Exporter Resilience-Controller Elastic-Agent Ascend Operator |
|
可参考NPU训练任务中的说明熟悉基础流程,然后尝试后续章节,如:使用命令行或者通过编程的方式下发NPU训练任务。最后,还可以融入高级特性。 |
每个场景提供的功能请参考安装部署时的说明。 |
集群调度场景 |
Ascend Docker Runtime Ascend Device Plugin Volcano HCCL-Controller(可选) NodeD(可选) NPU-Exporter(可选) Ascend Operator(可选) |
|||
设备纳管场景 |
Ascend Docker Runtime Ascend Device Plugin(启动参数配置volcanoType为false) NPU-Exporter(可选) |
K8s原生的资源对象 |
父主题: 典型场景