简介

应用场景

随着神经网络规模和数据集规模的急剧增长，单个服务器逐渐难以胜任大规模的神经网络训练，从而需要采用多个服务器（包含更多的AI芯片）组成高密度训练集群进行长时间分布式训练。随着训练集群规模的扩大，训练过程中不可避免的硬件故障导致训练任务异常，需要重新进行训练的情况随之增多，如何提升集群可用度成为当前需要面对的重大问题。

现有大规模集群训练主要通过ckpt（checkpoint）机制提升系统可用度，即在训练过程中周期性保存训练过程数据（模型参数等）作为ckpt，当业务平台检测到硬件故障发生后，可退出当前训练任务，通过重新加载ckpt数据，从ckpt保存时刻开始恢复训练，避免从头开始重新进行训练。

读者对象

本文档提供集群调度组件断点续训特性的功能实现方案参考，用户可参考本文档内容在基于K8s的第三方AI平台上集成集群调度组件断点续训特性的参考方案。具备以下知识或者经验可以帮助您更好的理解本文档。

熟悉集群调度组件下发训练任务流程，具备相关操作经验。通过命令行使用断点续训特性可以参考《MindX DL 集群调度用户指南》中的“部署训练任务 > 断点续训”章节进行操作。
具备平台开发的相关经验。