文档
注册

特性说明

MindX DL管理的资源(如安装昇腾处理器并启用NodeD的节点)出现故障后,MindX DL将对故障资源(对应芯片/节点)进行隔离并对故障发生时正在运行的训练任务自动进行重调度、重训练(需进行脚本适配),该特性叫做断点续训。断点续训特性包含“故障恢复”基础功能和“临终遗言”高阶功能,“故障恢复”能够从周期性保存的checkpoint恢复训练,“临终遗言”支持保存故障时刻与周期性checkpoint之间的内存中的参数状态,从而缩短训练损失时间。

在重调度策略开启的情况下,Ascend Device Plugin的异常也会触发故障重调度。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词