产品描述
产品介绍
MindIO临终遗言功能,主要针对大模型训练过程中故障恢复加速,临终遗言特性通过在训练过程中发生故障后,校验中间状态数据的完整性和一致性,生成一次临时CheckPoint数据,恢复训练时能够通过该CheckPoint数据恢复,减少故障造成的训练迭代损失。
产品价值
LLM(Large Language Model)是全球当前科技界竞争的焦点,LLM模型的训练往往需要长达数十天、甚至数月,CheckPoint是模型训练中断后恢复训练的关键点,CheckPoint过程中,整个集群中的训练任务会停滞,为了集群的利用率,CheckPoint的周期都配置的比较长,甚至达到数小时。这导致如果训练任务在即将生成CheckPoint数据的前一刻发生故障,未能生成本次CheckPoint数据,则只能从上一次的CheckPoint数据恢复,上次CheckPoint到故障前一刻的训练迭代需要重新计算,损失较大。通过临终遗言特性,在故障发生后,立即生成一次CheckPoint数据,恢复时也能立即恢复到故障前一刻的状态,减少迭代损失。
MindIO TTP架构
MindIO TTP(Try To Persist)临终CheckPoint保存的关键点:
- MindIO TTP的功能以whl包的形式提供,通过import模块的方式提供TTP特性功能。
- 修改Megatron等大模型框架适配TTP,通过TTP的Controller和Processor模块,检测模型训练状态、NPU硬件状态,通过心跳定期汇报至Controller模块,一旦检测到故障,就开始临终CheckPoint保存。
- 大模型训练中业界定期保存CheckPoint的间隔大、时间长,一旦故障时离上一次保存时间过长但还没到下一次保存时间,重新训练会消耗大量时间和资源。TTP提供了几乎零损时间和资源损失的重新训练方案,重新训练从上一次故障处开启。