数据集
数据是增强大模型能力的决定性因素之一。大模型对数据集的质量敏感,无效数据、低质量数据会让大模型学习到错误的模式,甚至影响模型收敛。重复数据会加剧语言模型生成内容重复的问题,并且诱导模型过拟合。从指标上看,数据集问题可能会导致GNorm产生尖刺,意味着GNorm异常增大,导致训练不稳定。
- 数据异常触发的训练不稳定:引起训练异常的语料包括字节码、unicode乱码、纯数字文本等。这些语料会无报警地被主流的subword tokenizer分割成token,并转成id序列正常进入训练迭代步骤,但由于这些语料本身没有任何语法语义规律,根据它们来更新参数可能会影响模型的正常学习过程。当异常语料数量显著时,会导致模型无法正常收敛。
- 语料混合比例与类型的重要性:不同语言不同语料类型(代码、文本)的混合比例和语料规模对大模型训练精度也有重要影响。需要调节不同来源的语料的混合比例,不能直接使用原始语料合并训练。均衡的语料比例有助于提高模型的泛化能力,特定类型的语料可以提升模型特定的能力。
- 数据规模与模型参数规模的匹配:参数规模并非越大越好,Hoffmann等人在Chinchilla系列模型中的研究表明,给定算力,语料的token数与模型的参数个数相当时,模型的表现相对更好。不能盲目追求大语料,也应重视控制规模、提高质量、训练充分。
父主题: 大模型精度问题主要来源和现象分析