特性介绍
训练节点出现故障后,系统将对故障资源(对应芯片/节点)进行隔离并对故障发生时正在运行的训练任务自动进行重调度、重训练(需进行脚本适配),该特性叫做断点续训,目前有MindX DL和ModelArts两种应用场景。断点续训特性包含两大功能:重调度和重训练。
重训练功能包含“故障恢复”基础功能和“临终遗言”高阶功能:
- 故障恢复:能够从周期性保存的checkpoint恢复训练。
- 临终遗言:支持保存故障时刻与周期性checkpoint之间的内存中的参数状态,从而缩短训练损失时间。
父主题: 断点续训使用示例