搞懂推理大模型，看这篇就够了！

畅销书《构建大型语言模型（从零开始）》作者发布了新的文章：Understanding Reasoning LLMs，这篇文章讨论了推理LLM的优缺点，并介绍了最近比较火的开源推理LLM模型DeepSeek R1，同时也总结了构建推理LLM的四种主要方法。

2024年，大语言模型（LLM）领域出现了日益明显的专业化趋势。除了预训练和微调之外，我们还见证了从检索增强生成（RAGs）到代码助手等专门应用的兴起。我预计这一趋势将在2025年加速发展，并更加注重针对特定领域和应用的优化（即“专业化”）。

如下图所示：阶段1-3是开发大型语言模型（LLMs）的常见步骤。阶段4则是针对特定用例对LLMs进行专业化定制。

推理模型的开发是这些专业化方向之一。这意味着我们通过优化LLMs，使其在需要中间步骤解决的复杂任务中表现出色，例如解谜、高级数学和编程挑战。然而，这种专业化并不会取代其他LLM应用。因为将LLM转化为推理模型也会带来一些缺点，我将在后文中讨论。

为了让您简要了解本文的内容，我将：

解释“推理模型”的含义
讨论推理模型的优缺点
概述DeepSeek R1背后的方法论
描述构建和改进推理模型的四种主要方法
分享对DeepSeek V3和R1发布后LLM领域的看法
提供在有限预算下开发推理模型的建议

希望您能在人工智能快速发展的今年，从本文中获得有用的见解！

如何定义“推理模型”？

如果你从事人工智能（或一般的机器学习）工作，你可能对模糊且备受争议的定义并不陌生。“推理模型”这一术语也不例外。最终，有人会在一篇论文中正式定义它，但很快又会在下一篇论文中被重新定义，如此循环。

在本文中，我将“推理”定义为回答需要复杂、多步生成并包含中间步骤的问题的过程。例如，像“法国的首都是哪里？”这样的事实性问题并不涉及推理。相比之下，像“如果一列火车以每小时60英里的速度行驶3小时，它会行驶多远？”这样的问题则需要一些简单的推理。例如，它需要在得出答案之前认识到距离、速度和时间之间的关系。

如下图所示：普通的大型语言模型（LLM）可能只会提供一个简短的答案（如左侧所示），而推理模型通常会包含中间步骤，从而揭示部分思考过程。（需要注意的是，许多未专门针对推理任务开发的大型语言模型也可以在其答案中提供中间推理步骤。）

大多数现代LLM都具备基本的推理能力，能够回答诸如“如果一列火车以每小时60英里的速度行驶3小时，它会行驶多远？”这样的问题。因此，如今当我们提到推理模型时，通常指的是那些擅长解决更复杂推理任务的LLM，例如解谜、猜谜和数学证明。

此外，如今大多数被称为推理模型的LLM在其响应中都包含一个“思考”或“思维”过程。LLM是否真的在“思考”以及如何“思考”是另一个话题。

推理模型中的中间步骤可以以两种方式呈现。首先，它们可能明确包含在响应中，如上图所示。其次，一些推理LLM（例如OpenAI的o1）会运行多次迭代，其中间步骤不会展示给用户。

如下图所示：“推理”在两个不同的层面上被使用：1）处理输入并通过多个中间步骤进行生成；2）作为对用户回答的一部分提供某种推理。

何时应该使用推理模型？

既然我们已经定义了推理模型，接下来可以进入更有趣的部分：如何构建和改进用于推理任务的LLM。然而，在深入技术细节之前，重要的是要考虑何时真正需要推理模型。

我们何时需要推理模型？推理模型旨在擅长解决复杂任务，例如解谜、高级数学问题和具有挑战性的编程任务。然而，对于更简单的任务（如摘要、翻译或基于知识的问答），它们并不是必需的。事实上，对所有任务都使用推理模型可能会效率低下且成本高昂。例如，推理模型通常使用成本更高、响应更冗长，有时由于“过度思考”而更容易出错。这里同样适用一个简单的原则：为任务选择合适的工具（或类型的LLM）。

下图总结了推理模型的主要优势和局限性。

DeepSeek训练流程简介

在下一部分讨论构建和改进推理模型的四种主要方法之前，我想简要概述一下DeepSeek R1的训练流程，正如DeepSeek R1技术报告中所描述的那样。这份报告既是一个有趣的案例研究，也是开发推理LLM的蓝图。

需要注意的是，DeepSeek并没有发布单一的R1推理模型，而是推出了三种不同的变体：DeepSeek-R1-Zero、DeepSeek-R1和DeepSeek-R1-Distill。

根据技术报告中的描述，我在下面的图表中总结了这些模型的开发过程。

接下来，让我们简要回顾一下上图中展示的流程。在下一部分中，我们将更详细地讨论构建和改进推理模型的四种主要方法。

DeepSeek-R1-Zero

：该模型基于2024年12月发布的6710亿参数的预训练DeepSeek-V3基础模型。研究团队使用两种类型的奖励进行强化学习（RL）来训练它。这种方法被称为“冷启动”训练，因为它没有包括通常作为人类反馈强化学习（RLHF）一部分的监督微调（SFT）步骤。
DeepSeek-R1

：这是DeepSeek的旗舰推理模型，基于DeepSeek-R1-Zero构建。团队通过额外的SFT阶段和进一步的强化学习训练对其进行了优化，从而改进了“冷启动”的R1-Zero模型。
DeepSeek-R1-Distill*

：利用前几步生成的SFT数据，DeepSeek团队对Qwen和Llama模型进行了微调，以增强它们的推理能力。虽然这并不是传统意义上的蒸馏，但该过程涉及使用更大规模的DeepSeek-R1 6710亿参数模型的输出来训练较小规模的模型（Llama 80亿参数和700亿参数，以及Qwen 15亿参数至300亿参数）。

构建和改进推理模型的四种主要方法

在本节中，我将概述目前用于增强LLM推理能力以及构建专门的推理模型（例如DeepSeek-R1、OpenAI的o1和o3等）的关键技术。

注意：o1和o3的具体工作原理在OpenAI之外仍然不为人知。然而，据传它们结合了推理和训练技术。

推理时扩展

改进LLM的推理能力（或任何能力）的一种方法是推理时扩展。这个术语可以有多种含义，但在这种情况下，它指的是在推理过程中增加计算资源以提高输出质量。

一个粗略的类比是，人类在有更多时间思考复杂问题时，往往会生成更好的回答。类似地，我们可以应用一些技术，促使LLM在生成答案时“多思考”。（尽管，LLM是否真的“思考”是另一个讨论话题。）

推理时扩展的一个直接方法是巧妙的提示工程。一个经典例子是思维链（Chain-of-Thought, CoT）提示，即在输入提示中加入“逐步思考”之类的短语。这会促使模型生成中间推理步骤，而不是直接跳到最终答案，这通常（但并非总是）可以在更复杂的问题上得到更准确的结果。（需要注意的是，对于像“法国的首都是什么”这样简单的知识性问题，采用这种策略是没有意义的，这再次是一个很好的经验法则，用来判断推理模型是否适用于你的输入查询。）

下图展示了来自2022年论文《Large Language Models are Zero-Shot Reasoners》的一个经典CoT提示的例子。

上述CoT方法可以被视为推理时扩展，因为它通过生成更多的输出标记使推理变得更加昂贵。

另一种推理时扩展的方法是使用投票和搜索策略。一个简单的例子是多数投票法，即让LLM生成多个答案，然后通过多数投票来选择正确答案。类似地，我们也可以使用束搜索（beam search）和其他搜索算法来生成更好的回答。

我强烈推荐《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》这篇论文。下图展示了不同的基于搜索的方法依赖于基于过程奖励的模型来选择最佳答案。

DeepSeek R1的技术报告指出，其模型没有使用推理时扩展。然而，这种技术通常是在LLM之上在应用层实现的，因此DeepSeek可能在其应用程序中应用了该技术。

我怀疑OpenAI的o1和o3模型使用了推理时扩展，这或许可以解释为什么它们相对于GPT-4o等模型来说成本较高。除了推理时扩展之外，o1和o3可能还通过与DeepSeek R1类似的强化学习（RL）流程进行了训练。关于强化学习的更多内容将在下面的两个部分中介绍。

纯强化学习（RL）

DeepSeek R1论文中我个人最感兴趣的一个亮点是，他们发现推理行为可以通过纯粹的强化学习（RL）自然产生。让我们更详细地探讨一下这意味着什么。

如前所述，DeepSeek开发了三种类型的R1模型。第一种是DeepSeek-R1-Zero，它基于DeepSeek-V3基础模型构建，这是他们在2024年12月发布的标准预训练LLM。与典型的RL流程（在RL之前进行监督微调（SFT））不同，DeepSeek-R1-Zero完全通过强化学习进行训练，没有初始的SFT阶段，如下图所示。

尽管如此，这一RL过程与常用的RLHF方法类似，后者通常用于对LLM进行偏好微调。然而，如上所述，DeepSeek-R1-Zero的关键区别在于他们跳过了用于指令微调的监督微调（SFT）阶段。这就是为什么他们称之为“纯粹”的RL。（尽管LLM背景下的RL与传统RL有显著不同，但这将是另一个话题。）

在奖励方面，他们没有使用基于人类偏好训练的奖励模型，而是采用了两种奖励：准确性奖励和格式奖励。

准确性奖励使用LeetCode编译器验证编码答案，并使用确定性系统评估数学答案。
格式奖励依赖于一个LLM评判器，以确保响应遵循预期格式，例如将推理步骤放在标签内。

令人惊讶的是，这种方法足以让LLM发展出基本的推理能力。研究人员观察到了一个“顿悟”时刻，模型开始在其响应中生成推理轨迹，尽管并未明确训练它这样做，如下图所示。

尽管R1-Zero并不是一个表现最好的推理模型，但它通过生成中间的“思考”步骤展示了推理能力，如上图所示。这证实了使用纯粹的强化学习（RL）开发推理模型是可行的，而DeepSeek团队是第一个展示（或至少发布）这种方法的团队。

监督微调与强化学习（SFT + RL）

接下来，我们来看看DeepSeek-R1的开发过程。DeepSeek-R1是DeepSeek的旗舰推理模型，也是构建推理模型的蓝图。该模型在DeepSeek-R1-Zero的基础上，通过增加额外的监督微调（SFT）和强化学习（RL）来提升其推理性能。

需要注意的是，在强化学习之前增加一个监督微调阶段实际上是很常见的，这在标准的RLHF流程中可以看到。OpenAI的o1模型很可能也是采用类似的方法开发的。

如上图所示，DeepSeek团队使用DeepSeek-R1-Zero生成了他们所称的“冷启动”SFT数据。“冷启动”一词指的是这些数据是由DeepSeek-R1-Zero产生的，而DeepSeek-R1-Zero本身并没有接受过任何监督微调数据的训练。

利用这些“冷启动”SFT数据，DeepSeek随后通过指令微调对模型进行了训练，接着又进行了另一轮强化学习（RL）阶段。这个RL阶段保留了DeepSeek-R1-Zero的RL过程中使用的相同准确性和格式奖励。然而，他们增加了一个一致性奖励，以防止语言混合，即模型在回答中切换多种语言的情况。

RL阶段之后，又进行了一轮SFT数据收集。在这个阶段，使用最新的模型检查点生成了60万条CoT示例，同时使用DeepSeek-V3基础模型额外创建了20万条基于知识的SFT示例。

这些60万 + 20万SFT样本随后被用于另一轮RL。在这个阶段，他们再次使用基于规则的方法为数学和编程问题提供准确性奖励，而其他类型问题则使用人类偏好标签。

最终模型DeepSeek-R1由于增加了额外的SFT和RL阶段，相较于DeepSeek-R1-Zero有了显著的性能提升，如下表所示。

纯监督微调（SFT）和模型“蒸馏”

到目前为止，我们已经介绍了构建和改进推理模型的三种主要方法：

推理时扩展，这是一种在不训练或修改底层模型的情况下提升推理能力的技术。
纯强化学习（RL），如DeepSeek-R1-Zero，它表明推理能力可以作为一种学习行为出现，而无需监督微调。
监督微调（SFT）加强化学习，这导致了DeepSeek-R1的诞生，它是DeepSeek的旗舰推理模型。

那么，还有什么没有提到呢？模型“蒸馏”。

令人惊讶的是，DeepSeek还发布了通过他们所称的“蒸馏”过程训练的较小模型。然而，在LLM的背景下，蒸馏并不一定遵循深度学习中传统的知识蒸馏方法。传统上，在知识蒸馏中，较小的学生模型会在较大教师模型的logits和目标数据集上进行训练。

相反，在这里，蒸馏指的是在由较大LLM生成的SFT数据集上对较小的LLM（如Llama 8B和70B以及Qwen 2.5模型，范围从0.5B到32B）进行指令微调。具体来说，这些较大的LLM是DeepSeek-V3和DeepSeek-R1的一个中间检查点。实际上，用于这种蒸馏过程的SFT数据集与上一节中用于训练DeepSeek-R1的数据集是相同的。

为了澄清这个过程，我在下面的图中突出了蒸馏部分。

他们为什么要开发这些经过蒸馏的模型呢？在我看来，主要有两个关键原因：

较小的模型更高效

。这意味着它们的运行成本更低，而且能够在较低端的硬件上运行，这使得它们对许多像我这样的研究人员和爱好者特别有吸引力。
纯监督微调的案例研究

。这些经过蒸馏的模型作为一个有趣的基准，展示了仅通过监督微调（SFT）而不使用强化学习，模型能够达到怎样的水平。

下面的表格比较了这些经过蒸馏的模型与其他流行的模型的性能，以及与DeepSeek-R1-Zero和DeepSeek-R1的性能对比。

正如我们所看到的，经过蒸馏的模型明显弱于DeepSeek-R1，但与DeepSeek-R1-Zero相比，它们的表现却出人意料地强劲，尽管它们的规模要小得多。值得注意的是，这些模型与o1 mini相比表现得相当出色（我怀疑o1 mini本身可能是o1的一个类似的蒸馏版本）。

在结束这一节之前，还有一个有趣的比较值得提及。DeepSeek团队测试了在DeepSeek-R1-Zero中看到的突发推理行为是否也能出现在较小的模型中。为了研究这一点，他们将DeepSeek-R1-Zero的纯强化学习方法直接应用于Qwen-32B。

这个实验的结果总结在下面的表格中，其中QwQ-32B-Preview是Qwen团队基于Qwen 2.5 32B开发的一个参考推理模型（我认为其训练细节从未公开披露）。这一比较为我们提供了关于纯强化学习是否能够单独在远小于DeepSeek-R1-Zero的模型中诱导推理能力的额外见解。

有趣的是，结果表明，对于较小的模型来说，蒸馏的效果远远优于纯强化学习（RL）。这与一种观点一致，即对于这个规模的模型，仅靠强化学习可能不足以诱导出强大的推理能力，而基于高质量推理数据的监督微调（SFT）可能是与小模型合作时更有效的策略。

为了完整性，如果表格中能有以下额外的比较，将更有帮助：

使用SFT + RL训练的Qwen-32B

，类似于开发DeepSeek-R1的方式。这将有助于确定，与纯RL和纯SFT相比，当RL与SFT结合时，可以实现多大的改进。
使用纯SFT训练的DeepSeek-V3

，类似于创建蒸馏模型的方式。这将允许进行直接比较，以查看RL + SFT相对于纯SFT的效果如何。

总结：在本节中，我们探讨了构建和改进推理模型的四种不同策略：

推理时扩展（Inference-time scaling）不需要额外的训练，但会增加推理成本，随着用户数量或查询量的增长，大规模部署变得更加昂贵。尽管如此，它仍然是提升已有强大模型性能的不二选择。我强烈怀疑o1利用了推理时扩展，这有助于解释为什么它在每个标记的基础上比DeepSeek-R1更昂贵。
纯粹的强化学习（RL）对于研究目的来说很有趣，因为它提供了推理作为涌现行为的洞察。然而，在实际的模型开发中，RL+SFT（监督式微调）是首选方法，因为它能带来更强的推理模型。我强烈怀疑o1也是使用RL+SFT进行训练的。更准确地说，我相信o1的起点比DeepSeek-R1更弱、更小的基础模型，但通过RL+SFT和推理时扩展来弥补。
如上所述，RL+SFT是构建高性能推理模型的关键方法。DeepSeek-R1是一个展示如何做到这一点的良好蓝图。
知识蒸馏（Distillation）是一种吸引人的方法，特别是对于创建更小、更高效的模型。然而，其局限性在于蒸馏不推动创新或产生下一代推理模型。例如，蒸馏总是依赖于一个现有的、更强大的模型来生成监督式微调（SFT）数据。

我期待看到的一个有趣方面是将RL+SFT（方法3）与推理时扩展（方法1）结合起来。这可能是OpenAI的o1正在做的事情，只是它可能基于比DeepSeek-R1更弱的基础模型，这解释了为什么DeepSeek-R1在保持相对便宜的推理时间的同时表现如此出色。

关于DeepSeek R1的思考

最近几周，许多人询问了我对DeepSeek-R1模型的看法。简而言之，我认为这是一个了不起的成就。作为一名研究工程师，我特别欣赏他们详细的技术报告，它提供了我可以学习的方法论的见解。

最吸引人的收获之一是推理如何作为纯强化学习（RL）的一种行为而出现。令人印象深刻的是，DeepSeek已经根据宽松的开源MIT许可证开放了他们的模型，这比Meta的Llama模型的限制还要少。

它与o1相比如何？ DeepSeek-R1比o1更好吗？我会说它们大致处于同一水平。然而，突出的是DeepSeek-R1在推理时更加高效。这表明DeepSeek可能在训练过程中投入了更多，而OpenAI可能更多地依赖于o1的推理时扩展。

话虽如此，直接比较o1和DeepSeek-R1是困难的，因为OpenAI没有透露太多关于o1的信息。例如，我们不知道： o1也是一个专家混合（MoE）模型吗？ o1有多大？ o1可能只是GPT-4o的一个稍微改进的版本，只有最小的RL+SFT和广泛的推理时扩展吗？

没有了解这些细节，直接比较仍然是一个苹果对橘子的比较。

DeepSeek-R1的训练成本另一个讨论点是开发DeepSeek-R1的成本。一些人提到了大约600万美元的训练成本，但他们可能将DeepSeek-V3（去年12月发布的基础模型）和DeepSeek-R1混淆了。

600万美元的估计是基于假设的每GPU小时2美元和DeepSeek-V3最终训练运行所需的GPU小时数，这最初是在2024年12月讨论的。

然而，DeepSeek团队从未披露R1的确切GPU小时数或开发成本，因此任何成本估计仍然是纯粹的猜测。

无论如何，最终，DeepSeek-R1是开放权重推理模型的一个重要里程碑，它在推理时的效率使其成为OpenAI的o1的一个有趣替代品。

在有限预算下开发推理模型

开发一个像DeepSeek-R1这样的推理模型，即使从像DeepSeek-V3这样的开源权重基础模型开始，也可能需要数十万到数百万美元。对于预算有限的研究人员或工程师来说，这可能会让人感到气馁。

好消息：蒸馏可以大有作为

幸运的是，模型蒸馏提供了一种更具成本效益的替代方案。DeepSeek团队通过他们的R1蒸馏模型展示了这一点，这些模型尽管比DeepSeek-R1小得多，但仍然表现出令人惊讶的强大推理性能。然而，即使是这种方法也不是完全便宜的。他们的蒸馏过程使用了80万SFT样本，这需要大量的计算资源。

有趣的是，在DeepSeek-R1发布前几天，我看到了一篇关于Sky-T1的文章，这是一个令人兴奋的项目，一个小团队仅使用1.7万SFT样本训练了一个开源权重的32B模型。总成本是多少？仅仅450美元，这甚至低于大多数人工智能会议的注册费。

这个例子突显了尽管大规模训练仍然昂贵，但较小规模、针对性的微调工作仍然可以在成本的一小部分内取得令人印象深刻的结果。

根据他们的基准测试，Sky-T1的表现大致与o1相当，考虑到其低廉的训练成本，这令人印象深刻。

预算内的纯强化学习：TinyZero

虽然Sky-T1专注于模型蒸馏，但我还发现了一些有趣的“纯强化学习（RL）”研究。一个值得注意的例子是TinyZero，这是一个参数量为3B的模型，它复制了DeepSeek-R1-Zero的方法（顺便说一下，训练成本不到30美元）。

令人惊讶的是，即使只有30亿参数，TinyZero也表现出了一些突发的自我验证能力，这支持了推理能力可以通过纯强化学习在小型模型中出现的观点。

TinyZero的代码仓库提到，相关的研究报告仍在进行中，我肯定会密切关注更多细节。

上述提到的两个项目表明，即使预算有限，也有可能在推理模型方面开展有趣的工作。尽管这两种方法都复制了DeepSeek-R1的技术，一个专注于纯强化学习（TinyZero），另一个专注于纯监督微调（Sky-T1），但探索这些想法如何进一步扩展将是非常有趣的。

超越传统SFT：旅程学习

去年我遇到的一个特别有趣的方法是在论文《O1 Replication Journey: A Strategic Progress Report – Part 1》中描述的。尽管标题如此，但该论文实际上并没有复现o1。相反，它介绍了一种改进蒸馏（纯SFT）过程的不同方法。

论文中的关键思想是“旅程学习”，作为“捷径学习”的替代方案。

捷径学习指的是传统指令微调中的方法，模型仅使用正确的解决方案路径进行训练。

而旅程学习则还包括错误的解决方案路径，让模型能够从错误中学习。

这种方法与在TinyZero的纯强化学习训练中观察到的自我验证能力有点相关，但它专注于通过SFT完全改进模型。通过让模型接触到错误的推理路径及其修正，旅程学习也可能会加强自我修正能力，从而以这种方式使推理模型更加可靠。

这可能是未来工作的一个令人兴奋的方向，特别是在预算有限的推理模型开发中，基于强化学习（RL）的方法可能在计算上不切实际。

不管怎样，目前在推理模型方面正在进行许多有趣的研究，我相信在未来几个月里我们会看到更多令人兴奋的工作！

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。

大模型就业发展前景

根据脉脉发布的《2024年度人才迁徙报告》显示，AI相关岗位的需求在2024年就已经十分强劲，TOP20热招岗位中，有5个与AI相关。
在这里插入图片描述字节、阿里等多个头部公司AI人才紧缺，包括算法工程师、人工智能工程师、推荐算法、大模型算法以及自然语言处理等。

除了上述技术岗外，AI也催生除了一系列高薪非技术类岗位，如AI产品经理、产品主管等，平均月薪也达到了5-6万左右。
AI正在改变各行各业，行动力强的人，早已吃到了第一波红利。