集成说明
在进行平台集成操作前,可先参考通过命令行使用断点续训,熟悉下发断点续训任务示例yaml的实现逻辑和参数说明,帮助用户更好地理解接下来的操作;如需获取开源组件源码可参考开源组件源码。
前提条件
- 仅支持使用集群调度组件的K8s集群,同时需要保证K8s集群中各节点时间一致,避免程序误判。
- 使用前需要检查存储的磁盘空间,确保可以容纳checkpoint。
- 配置存储方案:用户需确保环境中有配置相应的存储方案,比如使用NFS(Network File System),可参考安装NFS进行操作。
NFS需要用户根据使用情况进行目录隔离,NFS的随机读写性能必须能够在15分钟内保存完整的ckpt文件,建议用户使用专业的存储服务器,NFS具体性能要求给出如下参考。
- 安装所需组件:使用断点续训特性需要提前安装如下组件;若没有安装,请参考《MindX DL 集群调度安装指南》中的“安装部署”章节进行操作。
- Volcano:包括开源Volcano和集群调度组件提供的Volcano;开源Volcano需要集成Ascend-volcano-plugin插件。
- HCCL-Controller或Ascend Operator
- Ascend Device Plugin
- Ascend Docker Runtime
- NodeD
- 适配整卡调度:请参考《MindX DL 集群调度用户指南》中的“部署训练任务 > 整卡调度或静态vNPU调度 > 集成后使用”章节进行操作,确保当前AI平台已经可以实现下发使用整卡资源类型的训练任务。
(可选)适配资源监测:请参考《MindX DL 集群调度安装指南》中的“安装部署 > 手动安装 > NPU-Exporter”章节安装NPU-Exporter组件,并参考《MindX DL 集群调度用户指南》中的“资源监测”章节进行使用。
支持的故障模式
ConfigMap说明
- 每个计算节点的Ascend Device Plugin均会创建记录本节点设备信息的ConfigMap文件,该文件名称为mindx-dl-deviceinfo-<nodename>(以下简称Device-Info ConfigMap),通过该ConfigMap进行故障信息的上报。
- 创建每个任务时,需要在yaml中配置ConfigMap文件,该文件名称为reset-config-<job-name>(以下简称Reset-Info ConfigMap),同时将该ConfigMap挂载到容器的“/user/restore/reset/config”路径下。
父主题: 集成指导