文档
注册

简介

应用场景

随着神经网络规模和数据集规模的急剧增长,单个服务器逐渐难以胜任大规模的神经网络训练,从而需要采用多个服务器(包含更多的AI芯片)组成高密度训练集群进行长时间分布式训练。随着训练集群规模的扩大,训练过程中不可避免的硬件故障导致训练任务异常,需要重新进行训练的情况随之增多,如何提升集群可用度成为当前需要面对的重大问题。

现有大规模集群训练主要通过ckpt(checkpoint)机制提升系统可用度,即在训练过程中周期性保存训练过程数据(模型参数等)作为ckpt,当业务平台检测到硬件故障发生后,可退出当前训练任务,通过重新加载ckpt数据,从ckpt保存时刻开始恢复训练,避免从头开始重新进行训练。

读者对象

本文档提供集群调度组件断点续训特性的功能实现方案参考,用户可参考本文档内容在基于K8s的第三方AI平台上集成集群调度组件断点续训特性的参考方案。具备以下知识或者经验可以帮助您更好的理解本文档。

  • 熟悉集群调度组件下发训练任务流程,具备相关操作经验。通过命令行使用断点续训特性可以参考《MindX DL 集群调度用户指南》中的“部署训练任务 > 断点续训”章节进行操作。
  • 具备平台开发的相关经验。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词