本文是LLM系列文章,针对《REGMIX: Data Mixture as Regression for Language Model Pre-training》的翻译。
摘要
大型语言模型预训练的数据混合会显著影响性能,但如何确定有效的混合仍然不清楚。我们建议REGMIX通过将其表述为回归任务来自动识别高性能的数据混合。REGMIX涉及用不同的数据混合物训练一组小模型,并拟合一个回归模型来预测它们在各自混合下的性能。通过拟合回归模型,我们模拟了排名靠前的混合物,并使用它来训练一个计算量高出几个数量级的大规模模型。为了实证验证REGMIX,我们为不同混合物的1B个token训练了512个具有1M参数的模型,以拟合回归模型并找到最佳混合物。使用这种混合物,我们为25B个token(即1000倍大和25倍长)训练了一个1B参数模型,我们发现它在64个具有其他混合物的候选1B参数模型中表现最佳。此外,与人工选择相比,我们的方法表现出了更优的性能,并实现了与DoReMi相匹配或超越的结果,同时只利用了10%的计算预算。我们的实验还表明:(1)数据混合显著影响性能,单任务性能变化高达14.6%;(2) 网络语料库而非维基百科等被视为高质量的数据与下游表现的正相关关系最强;(3) 域以复杂的方式相互作用,通常与常识相矛盾&