多机多卡训练场景
本章节以OPT中caption任务的finetune功能为例,配置请参考MindSpore官方教程 多机多卡训练章节。
模型启动脚本的“SERVER_ID”需要根据机器进行修改,其他修改与单机多卡训练场景相同,修改后完整脚本参考链接。
export SERVER_ID=0 # 第一台机器设置为0,第二台机器设置为1
- RANK_TABLE_FILE的生成方式参考RANK_TABLE_FILE生成方法。
- 每台机器分别设置SERVER_ID,如第一台机器为0,第二台机器为1。
- 为保证运行日志正确落盘,建议合理设置SERVER_ID,DEVICE_ID,取值范围[0, 8)。
- 每台机器对应的启动脚本、模型代码以及“rank_table_file.json”的存放路径需保持一致。
父主题: 分布式训练场景