集成说明

在进行平台集成操作前，可先参考通过命令行使用断点续训，熟悉下发断点续训任务示例yaml的实现逻辑和参数说明，帮助用户更好地理解接下来的操作；如需获取开源组件源码可参考开源组件源码。

前提条件

仅支持使用集群调度组件的K8s集群，同时需要保证K8s集群中各节点时间一致，避免程序误判。
使用前需要检查存储的磁盘空间，确保可以容纳checkpoint。
配置存储方案：用户需确保环境中有配置相应的存储方案，比如使用NFS（Network File System），可参考安装NFS进行操作。
NFS需要用户根据使用情况进行目录隔离，NFS的随机读写性能必须能够在15分钟内保存完整的ckpt文件，建议用户使用专业的存储服务器，NFS具体性能要求给出如下参考。
安装所需组件：使用断点续训特性需要提前安装如下组件；若没有安装，请参考《MindX DL 集群调度安装指南》中的“安装部署”章节进行操作。
- Volcano：包括开源Volcano和集群调度组件提供的Volcano；开源Volcano需要集成Ascend-volcano-plugin插件。
- HCCL Controller或Ascend Operator
- Ascend Device Plugin
- Ascend Docker Runtime
- NodeD
  - Elastic Agent：构建优雅容错镜像时会用到该组件，无需提前安装。
  - 开源Volcano集成Ascend-volcano-plugin插件的操作步骤可参见《MindX DL 集群调度安装指南》中的“安装部署 > 手动安装 > Volcano > 集成昇腾插件扩展开源Volcano”章节进行操作。
适配整卡调度：请参考《MindX DL 集群调度用户指南》中的“部署训练任务 > 整卡调度或静态vNPU调度 > 集成后使用”章节进行操作，确保当前AI平台已经可以实现下发使用整卡资源类型的训练任务。
（可选）适配资源监测：请参考《MindX DL 集群调度安装指南》中的“安装部署 > 手动安装 > NPU Exporter”章节安装NPU Exporter组件，并参考《MindX DL 集群调度用户指南》中的“资源监测”章节进行使用。

支持的故障模式

当前已支持20+软件类故障及90+硬件类故障的检测。支持的故障类型请参见表1，详细的故障说明请参见故障模式参考。

表1 故障类型说明
故障类型	故障说明
节点故障	计算节点（含NPU的节点）与管理节点网络通信异常，如：网络中断，宿主机网卡故障等。
芯片故障	《Atlas A2 中心推理和训练硬件健康管理故障定义》和《Atlas A2 中心推理和训练硬件黑匣子错误码信息列表》中DCMI接口上报的设备错误和设备网络探测工具hccn_tool检测到的设备网络故障。
参数面网络故障	芯片之间进行参数交换的专用网络。
业务面故障	训练进程异常退出，Pod为Failed状态。

集成说明

前提条件

支持的故障模式

推荐配置