文档
注册

产品描述

产品介绍

MindIO临终遗言功能,主要针对大模型训练过程中故障恢复加速,临终遗言特性通过在训练过程中发生故障后,校验中间状态数据的完整性和一致性,生成一次临时Checkpoint数据,恢复训练时能够通过该CheckPoint数据恢复,减少故障造成的训练迭代损失。

产品价值

LLM(Large Language Model)是全球当前科技界竞争的焦点,LLM模型的训练往往需要长达数十天、甚至数月,CheckPoint是模型训练中断后恢复训练的关键点,CheckPoint过程中,整个集群中的训练任务会停滞,为了集群的利用率,CheckPoint的周期都配置的比较长,甚至达到数小时级。这导致如果训练任务在即将生成Checkpoint数据前一刻发生故障,未能生成本次CheckPoint数据,则只能从上一次的CheckPoint数据恢复,上次CheckPoint到故障前一刻的训练迭代需要重新计算,损失较大。通过临终遗言特性,在故障发生后,立即生成一次CheckPoint数据,恢复时也能立即恢复到故障前一刻的状态,减少迭代损失。

MindIO TTP架构

MindIO TTP临终CheckPoint保存几个关键点:

  • MindIO TTP的功能以whl包的形式提供,通过import模块的方式提供TTP特性功能。
  • 修改Megatron等大模型框架适配TTP,通过TTP的controller和Processor模块,检测模型训练状态、NPU硬件状态,通过心跳定期汇报至controller,一旦检测到故障,开始临终CheckPoint保存。
  • 大模型训练中业界定期保存CheckPoint的间隔大、时间长,一旦故障时离上一次保存时间过长但还没到下一次保存时间,重新训练会消耗大量时间和资源。TTP提供了几乎零损时间和资源损失的重新训练方案,重新训练从上一次故障处开启。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词