超参数配置

超参数对大模型训练收敛有关键性影响,这里说的超参数主要包括:优化器选择、学习率设定、梯度裁剪阈值、Loss scale等。