数据集清洗

在构建高质量机器学习模型的过程中,数据集清洗是一项至关重要的前期任务,旨在提升模型训练效果,防止过拟合及生成内容的冗余。

当遇到Loss或者perplexity尖刺,如果确定是数据批次引起的问题,可以跳过尖刺期间看到的一些数据批次,从以前正常的检查点重新开始训练。