产品描述
产品介绍
MindIO加速大模型CheckPoint功能主要针对大模型训练中的CheckPoint的保存及加载进行加速,CheckPoint的数据先写入训练服务器的内存系统中,再异步写入后端的可靠性存储设备中。本文档主要介绍纵向加速部分,包含CheckPoint在本系统中的写入及读取过程。
产品价值
LLM(Large Language Model)是全球当前科技界竞争的焦点,LLM模型的训练往往需要长达数十天、甚至数月,CheckPoint是模型中断训练后恢复的关键点,因此CheckPoint密集程度、保存和恢复的性能较为关键,从而使得训练系统的有效吞吐率越高。OCK MindIO针对CheckPoint的加速方案,支持昇腾产品在LLM模型领域扩展市场空间,支持客户进行POC和上线测试。
该方案提升昇腾平台上LLM模型的训练吞吐量,性能超越Microsoft Azure Nebula方案。
MindIO架构
MindIO加速LLM CheckPoint保存和加载的关键点有4个:
- 异步持久化,训练框架通过torch_mindio的save/load接口或MindSpore框架将CheckPoint保存到MindIO后,直接返回继续训练,该时间为秒级;MindIO会异步将CheckPoint写入持久化的分布式存储,该过程为分钟级。
- 高性能MemFS,MindIO为实现CheckPoint极速写入,实现了全用户态的以内存为介质的文件系统;消除各种标准文件系统的系统调用和用户态到内核态的内存拷贝。
- 高效CheckPoint保存和加载,MindIO为实现CheckPoint极速写入和恢复,研发了高效CheckPoint保存、加载方式。
- MindIO具备自动容错能力,当MindIO服务异常导致数据读写失败、超时等异常时,能自动切换到原生数据存储方式,保证业务不中断。
MindIO仅保存训练过程中的CheckPoint数据,暂不支持敏感数据的保存和处理。若涉及敏感数据存储,请在前序流程完成相关脱敏操作,避免造成信息安全问题。