文档
注册

应用场景

随着神经网络规模和数据集规模的急剧增长,单个服务器逐渐难以胜任大规模的神经网络训练,从而需要采用多个服务器(包含更多的AI芯片)组成高密度训练集群进行长时间分布式训练。随着训练集群规模的扩大,训练过程中因故障导致训练任务异常,从而需要重新进行训练的情况随之增多。提升集群可用度成为当前需要面对的重大问题。

现有大规模集群训练主要通过ckpt(checkpoint)机制,即在训练过程中周期性保存训练过程数据(模型参数等)作为ckpt,当业务平台检测到故障发生后,可退出当前训练任务,通过重新加载ckpt数据,从ckpt保存时刻开始恢复训练,避免从头开始重新进行训练。

  • 较小规模的模型任务训练用时较短(时长 < 1h),硬件出现故障的频率较低,不推荐用户使用断点续训特性。
  • 本特性不适用于算力切分场景。

读者对象

需要集成断点续训功能的深度学习平台开发者。

本文档旨在指导开发者如何基于集群调度基础组件,开发深度学习平台的断点续训能力;并为开发者提供关键模块的以GO语言编程的代码示例,使用其他编程语言的开发者可参考实现。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词