产品描述
产品介绍
MindIO故障快速恢复特性,当前包括TTP(Try To Persist)临终遗言CheckPoint保存。针对大模型训练过程中故障恢复加速,TTP特性通过在训练过程中发生故障后,校验中间状态数据的完整性和一致性,生成一次临时CheckPoint数据,恢复训练时能够通过该CheckPoint数据恢复,减少故障造成的训练迭代损失。
产品价值
LLM(Large Language Model)是全球当前科技界竞争的焦点,LLM模型的训练往往需要长达数十天、甚至数月,CheckPoint是模型训练中断后恢复训练的关键点,CheckPoint过程中,整个集群中的训练任务会停滞,为了集群的利用率,CheckPoint的周期都配置的比较长,甚至达到数小时级。这导致如果训练任务在即将生成CheckPoint数据前一刻发生故障,未能生成本次CheckPoint数据,则只能从上一次的CheckPoint数据恢复,上次CheckPoint到故障前一刻的训练迭代需要重新计算,损失较大。通过TTP特性,在故障发生后,立即生成一次CheckPoint数据,恢复时也能立即恢复到故障前一刻的状态,减少迭代损失。
MindIO故障快速恢复架构
MindIO故障快速恢复的各个功能集成在一个whl包中对外提供,需要通过import模块的方式使用对应功能。MindIO故障快速恢复的关键点如下:
- MindIO TTP通过修改ModelLink等大模型框架适配TTP;通过TTP的controller和processor模块,检测模型训练状态和NPU硬件状态;通过心跳定期汇报至controller模块。一旦检测到故障,就开始临终CheckPoint保存。
- 大模型训练中业界定期保存CheckPoint的时间间隔长。如果发生故障时,距离上一次保存的时间间隔过长,但又没到下一次保存的时间,此时如果重新训练就会消耗大量时间和资源。TTP提供了几乎零损时间和资源的重新训练方案,即重新训练从上一次故障处开始。