数据集

数据是增强大模型能力的决定性因素之一。大模型对数据集的质量敏感,无效数据、低质量数据会让大模型学习到错误的模式,甚至影响模型收敛。重复数据会加剧语言模型生成内容重复的问题,并且诱导模型过拟合。从指标上看,数据集问题可能会导致GNorm产生尖刺,意味着GNorm异常增大,导致训练不稳定。