训练流程:与基准一致
目标
训练的起始状态、中间过程、结果状态需要与参考基准一致,验证的样本、流程也需要与参考基准一致。
思路
用户训练过程中,常常会出现例如未清空中间数据等流程错误,基于该不期望的中间数据可能会引起精度不一致的问题。
用户需要对训练流程有基本的知识积累,并自行检查整个训练、验证过程的正确性。
参考步骤
- 检查权重的初始化方式,当初始权重为随机初始化时,确保随机特性与基准一致;当初始权重为加载预训练权重文件初始化时,确保权重文件与基准一致。
- 检查启动脚本,确保使用了正确的脚本和参数。
- 对于集群训练,确保正确增加了集群训练的参数、或配置符合预期。尤其需要避免常见的各节点仅进行独立训练无任何信息同步的问题。
父主题: 检查迁移后脚本