同一芯片故障反复出现,导致训练任务中断反复进行重调度
2025/01/26
32
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
官方 | 集群调度 | 断点续训 | 芯片故障、重调度 |
问题现象描述
同一芯片故障反复出现,导致训练任务中断反复进行重调度。
原因分析
芯片出现故障后,断点续训将训练进程退出并进行重调度。芯片通过自愈手段,恢复为健康状态,导致后续调度任务时,再次使用该芯片进行训练。但是该故障有较大概率在该芯片上再次出现,继续导致训练中断。
解决措施
请参见《断点续训特性指南》中的“使用参考>故障配置参考>芯片故障>配置芯片故障频率及时长”章节,配置支持该故障的最大次数和达到最大次数后的故障处理级别。
本页内容