Bootstrap

Kimi k1.5:基于大语言模型的多模态强化学习训练技术报告

1. 背景与目标

近年来,基于下一个词预测的语言模型预训练在扩展计算能力方面取得了显著成效,但其发展受限于高质量训练数据的数量。为了突破这一瓶颈,Kimi团队提出了基于强化学习(RL)的大语言模型(LLM)训练方法,旨在通过奖励机制引导模型探索学习,从而实现训练数据的持续扩展。

2. Kimi k1.5 的核心创新点

Kimi k1.5 的训练方法融合了多种创新技术,旨在提升模型的多模态推理能力和效率:

(1)长上下文扩展
  • 上下文窗口扩展至 128k: 通过扩展上下文窗口,模型能够处理更长的输入序列,从而提升其在复杂推理任务中的表现。
  • 部分回溯技术: 为了提高训练效率,Kimi k1.5 采用部分回溯技术,即在生成新轨迹时重用之前轨迹的大部分内容,避免从头开始重新生成,从而降低计算成本。
(2)改进的策略优化方法
  • 长链式思维(CoT)强化学习: Kimi k1.5 采用了一种基于长链式思维(CoT)的强化学习算法,通过在线镜像下降的变体进行鲁棒的策略优化。
  • 高效采样策略: 结合难度标签和成功率跟踪,Kimi k1.5 采用课程采样优先采样策略:
    • 课程采样: 从简单任务开始,逐步过渡到更复杂的任务,提高训练效率。
    • 优先采样: 优先选择模型表现较差的样本进行训练,帮助模型更快地学习并提升整体性能。
  • 长度惩罚机制: 为了防止模型过度思考导致响应长度过长,Kimi k1.5 引入了长度惩罚机制,鼓励生成更简洁的答案,同时对错误的长答案进行惩罚。
  • 去价值网络设计: Kimi k1.5 摒弃了传统的价值网络设计,转而使用最终答案作为奖励信号,鼓励模型探索多样化的推理路径,从而提升其解决复杂问题的能力。
(3)简洁高效的框架
  • 无需复杂技术: 通过长上下文扩展和改进的策略优化方法,Kimi k1.5 实现了强大的推理性能,而无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等复杂技术。
  • 多模态联合训练: Kimi k1.5 在文本和视觉数据上进行联合训练,使其能够对两种模态进行联合推理。
(4)长链式思维到短链式思维的迁移

为了在有限的测试时间计算预算下提升短链式思维模型(短-CoT)的性能,Kimi k1.5 提出了以下长链式思维到短链式思维(长2短)的方法:

  • 模型融合: 将长-CoT 模型与短-CoT 模型进行融合,通过平均权重的方式获得新模型,提升短模型的推理能力。
  • 最短拒绝采样: 对同一问题进行多次采样,选择最短的正确回答进行监督微调。
  • 直接偏好优化(DPO): 利用长-CoT 模型生成多个回答样本,选择最短的正确回答作为正样本,将更长的回答(无论是正确还是错误)作为负样本进行训练。
  • 长2短强化学习: 在标准 RL 训练阶段之后,选择一个在性能和 token 效率之间取得最佳平衡的模型作为基础模型,并进行单独的长2短 RL 训练阶段,进一步减少最大回溯长度。

3. 实验结果

(1)长-CoT 模型性能
  • 在多个基准测试中,Kimi k1.5 长-CoT 模型均取得了最先进的推理性能,例如:
    • AIME 2024:77.5
    • MATH-500:96.2
    • Codeforces:94 百分位
    • MathVista:74.9
(2)短-CoT 模型性能
  • Kimi k1.5 短-CoT 模型在多个任务中表现出与领先的开源和专有模型相当或更优的性能,尤其是在自然语言理解、数学、编码和逻辑推理方面表现出色,例如:
    • AIME 2024:60.8(Pass@1)
    • MATH-500:94.6(Pass@1)
    • LiveCodeBench:47.3(Pass@1)
(3)长上下文扩展效果
  • 随着训练迭代次数的增加,模型的响应长度和性能准确性均呈现同步增长的趋势,表明长上下文扩展对模型推理能力的提升至关重要。
(4)长2短方法比较
  • 与 DPO、最短拒绝采样和模型融合方法相比,Kimi k1.5 提出的长2短 RL 算法在 token 效率方面表现最佳。例如,k1.5-short w/ rl 在 AIME 2024 上实现了 60.8 的 Pass@1 分数,而平均仅使用 3,272 个 token。

4. 结论与未来展望

  • 长上下文扩展是提升 LLM 性能的关键因素。 通过优化学习算法和基础设施(如部分回溯),Kimi k1.5 实现了高效的长上下文 RL 训练。
  • 改进的策略优化方法至关重要。 融合长-CoT RL 公式、在线镜像下降变体、采样策略、长度惩罚和数据配方优化,Kimi k1.5 实现了强大的 RL 性能。
  • 长2短方法具有巨大潜力。 这些方法可以显著提升短-CoT 模型的性能,并且可以与长-CoT RL 迭代结合使用,以进一步提高 token 效率并充分利用给定的上下文长度预算。

未来,Kimi 团队将继续探索提高长上下文 RL 训练效率和可扩展性的方法,并研究在不损害模型探索能力的情况下改进信用分配和减少过度思考的方法。

;