DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力

论文链接：

[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

实在太长，自行扔到 Model 里，去翻译去提问吧。

工作原理：

主要技术，就是训练出一些专有用途小模型，来帮助大模型训练。主要技术：

1. 强化学习 (RL)

核心是强化学习技术，像训练小狗一样，当模型做出正确的推理步骤或得到正确的结果时，就会获得奖励，给 <think> </think> 标记；否则受到惩罚。通过不断地学习和调整，模型的推理能力就越来越强。强化学习过程分为多个阶段，包括直接在基础模型上进行强化学习 (DeepSeek-R1-Zero)，以及在加入少量人工整理的数据后进行强化学习。

2. 冷启动数据

为了让模型更“听话”，在 DeepSeek-R1-Zero 的基础上加入了一些人工整理的数据，并进行多阶段训练。这些数据可以帮助模型更好地理解人类的语言和思维方式，从而提高推理的准确性和可读性。

3. 多阶段训练

训练过程分为多个阶段，包括冷启动阶段、推理导向的强化学习阶段、拒绝采样和监督微调阶段，以及针对所有场景的强化学习阶段。每个阶段都有不同的目标和侧重点，从而保证模型的推理能力和泛化能力都能得到提升。

4. 知识蒸馏

DeepSeek-R1 生成大量的训练数据，然后用这些数据来训练 smaller models。可以显著提高 smaller models 的推理性能，降低计算成本。