模型超参:与基准一致
目标
模型超参与参考基准一致。
思路
进行脚本迁移的用户可能对超参的一致性不熟悉,导致迁移完成后,但一些超参的计算事实上与参考基准不一致。
此时需要检查实际执行超参与参考基准的一致性。
出现较频繁的问题包括:
- 分布式训练的迁移过程中,全局batch size与单Device batch size的换算出错,导致NPU的全局batch size与参考基准全局batch size不一致。
- 分布式训练的迁移过程中,全局学习率与单Device学习率的换算出错,导致NPU的全局学习率与参考基准全局学习率不一致。
参考步骤
- 对比检查迁移后的脚本与参考基准脚本中的超参设定参数,确保实际设定值一致。
- 对比检查与超参相关的配置文件,确保实际使用的配置文件一致。
- 运行调试(调试器或打印)参考基准脚本和迁移后的脚本,确认打印的超参数值一致。
- 对比训练过程中的学习率打印,确保参考基准和迁移后训练的变化一致。
父主题: 检查迁移后脚本