在构建高质量机器学习模型的过程中,数据集清洗是一项至关重要的前期任务,旨在提升模型训练效果,防止过拟合及生成内容的冗余。
- 非目标语言与低质量样本剔除:剔除非目标任务语言、丢弃低perplexity数据、删去标点/符号过多或过长过短的句子、删除具有某些特定词汇(如html标签、链接、脏话、敏感词)的句子。
- 去重:删除包含大量重复词汇或短语的句子;删除重复率(词/n-grams共现)过高的段落;删除训练集中可能与测试集相关度过高的内容。这样可以提高训练集质量,缓解语言模型生成内容重复的问题,避免测试集泄露带来的过拟合问题。
当遇到Loss或者perplexity尖刺,如果确定是数据批次引起的问题,可以跳过尖刺期间看到的一些数据批次,从以前正常的检查点重新开始训练。