下载
中文
注册
同一芯片故障反复出现,导致训练任务中断反复进行重调度

同一芯片故障反复出现,导致训练任务中断反复进行重调度

2025/01/26

32

暂无评分
我要评分

问题信息

问题来源产品大类产品子类关键字
官方集群调度断点续训芯片故障、重调度

问题现象描述

同一芯片故障反复出现,导致训练任务中断反复进行重调度。

原因分析

芯片出现故障后,断点续训将训练进程退出并进行重调度。芯片通过自愈手段,恢复为健康状态,导致后续调度任务时,再次使用该芯片进行训练。但是该故障有较大概率在该芯片上再次出现,继续导致训练中断。

解决措施

请参见《断点续训特性指南》中的“使用参考>故障配置参考>芯片故障>配置芯片故障频率及时长”章节,配置支持该故障的最大次数和达到最大次数后的故障处理级别。

本页内容