大模型精度问题说明
大模型训练中经常出现各种精度问题,我们重点摘取了开源模型的训练日志,参考一些已知文献(详见参考文献),对大模型精度问题做了来源和现象分析。
就现象而言,有训练Loss收敛效果不佳(包括无法收敛和收敛在Loss很大的局部最优)、validation perplexity上升、activation_norm和g_norm异常增大等,评测集评分不高。
根据已知文献和大模型训练实践,我们总结出这些精度问题可能是多种来源造成的,包括数据集、超参数、模型结构和算法、浮点计算精度等。
父主题: 大模型精度问题主要来源和现象分析