应用场景

随着神经网络规模和数据集规模的急剧增长，单个服务器逐渐难以胜任大规模的神经网络训练，从而需要采用多个服务器（包含更多的AI芯片）组成高密度训练集群进行长时间分布式训练。随着训练集群规模的扩大，训练过程中因故障导致训练任务异常，从而需要重新进行训练的情况随之增多。提升集群可用度成为当前需要面对的重大问题。

现有大规模集群训练主要通过ckpt（checkpoint）机制，即在训练过程中周期性保存训练过程数据（模型参数等）作为ckpt，当业务平台检测到故障发生后，可退出当前训练任务，通过重新加载ckpt数据，从ckpt保存时刻开始恢复训练，避免从头开始重新进行训练。

较小规模的模型任务训练用时较短（时长 < 1h），硬件出现故障的频率较低，不推荐用户使用断点续训特性。
本特性不适用于虚拟化实例场景。

读者对象

需要集成断点续训功能的深度学习平台开发者。

本文档旨在指导开发者如何基于集群调度基础组件，开发深度学习平台的断点续训能力；并为开发者提供关键模块的以GO语言编程的代码示例，使用其他编程语言的开发者可参考实现。

父主题： 特性说明