文档
注册

集成说明

在进行平台集成操作前,可先参考通过命令行使用断点续训,熟悉下发断点续训任务示例yaml的实现逻辑和参数说明,帮助用户更好地理解接下来的操作;如需获取开源组件源码可参考开源组件源码

前提条件

  • 仅支持使用集群调度组件K8s集群,同时需要保证K8s集群中各节点时间一致,避免程序误判。
  • 使用前需要检查存储的磁盘空间,确保可以容纳checkpoint。
  • 配置存储方案:用户需确保环境中有配置相应的存储方案,比如使用NFS(Network File System),可参考安装NFS进行操作。

    NFS需要用户根据使用情况进行目录隔离,NFS的随机读写性能必须能够在15分钟内保存完整的ckpt文件,建议用户使用专业的存储服务器,NFS具体性能要求给出如下参考。

  • 安装所需组件:使用断点续训特性需要提前安装如下组件;若没有安装,请参考MindX DL 集群调度安装指南中的“安装部署”章节进行操作。
    • Volcano:包括开源Volcano和集群调度组件提供的Volcano;开源Volcano需要集成Ascend-volcano-plugin插件。
    • HCCL-ControllerAscend Operator
    • Ascend Device Plugin
    • Ascend Docker Runtime
    • NodeD
      • Elastic-Agent:构建优雅容错镜像时会用到该组件,无需提前安装。
      • 开源Volcano集成Ascend-volcano-plugin插件的操作步骤可参见MindX DL 集群调度安装指南中的“安装部署 > 手动安装 > Volcano > 集成昇腾插件扩展开源Volcano”章节进行操作。
  • 适配整卡调度:请参考MindX DL 集群调度用户指南中的“部署训练任务 > 整卡调度或静态vNPU调度 > 集成后使用”章节进行操作,确保当前AI平台已经可以实现下发使用整卡资源类型的训练任务。
  • (可选)适配资源监测:请参考MindX DL 集群调度安装指南中的“安装部署 > 手动安装 > NPU-Exporter”章节安装NPU-Exporter组件,并参考MindX DL 集群调度用户指南中的“资源监测”章节进行使用。

支持的故障模式

当前已支持20+软件类故障及90+硬件类故障的检测。支持的故障类型请参见表1,详细的故障说明请参见故障模式参考

表1 故障类型说明

故障类型

故障说明

节点故障

计算节点(含NPU的节点)与管理节点网络通信异常,如:网络中断,宿主机网卡故障等。

芯片故障

Atlas A2 中心推理和训练硬件 健康管理故障定义Atlas A2 中心推理和训练硬件 黑匣子错误码信息列表中DCMI接口上报的设备错误和设备网络探测工具hccn_tool检测到的设备网络故障。

参数面网络故障

芯片之间进行参数交换的专用网络。

业务面故障

训练进程异常退出,Pod为Failed状态。

推荐配置

在使用故障重调度的ckpt保存能力时,需根据实际情况选择周期性保存ckpt频率,用户可参考如所示的推荐频率。

图1 周期性ckpt保存频率推荐表
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词