Bootstrap

DeepSeek-V3技术报告

摘要

https://arxiv.org/pdf/2412.19437v1
我们介绍DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,具有6710亿个总参数,每个token激活37亿个参数。为了实现高效推理和经济实惠的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3开创了一种无辅助损失的负载平衡策略,并设定了多token预测训练目标,以实现更强的性能。我们在148万亿个多样化和高质量的token上对DeepSeek-V3进行了预训练,随后进行了监督微调和强化学习阶段,以充分发挥其能力。全面评估显示,DeepSeek-V3的性能优于其他开源模型,并且与领先的闭源模型的性能相当。尽管表现出色,DeepSeek-V3的完整训练仅需2.788M H800 GPU小时。此外,其训练过程非常稳定。在整个训练过程中,我们没有经历任何不可恢复的损失峰值,也没有进行任何回滚。模型检查点可在https://github.com/deepseek-ai/DeepSeek-V3获取。
在这里插入图片描述

1 引言

近年来,大型语言模型(LLMs)正在快速迭代和演变(Anthropic, 2024; Google, 2024; OpenAI, 2024a),逐渐缩小与人工通用智能(AGI)之间的差距。除了闭源模型,开源模型,包括DeepSeek系列(DeepSeek-AI, 2024a, b, c; Guo et al., 2024)、LLaMA系列(AI@Meta, 2024a, b; Touvron et al., 2023a, b)、Qwen系列(Qwen, 2023, 2024a, b)和Mistral系列(Jiang et al., 2023; Mistral, 2024),也在取得显著进展,努力缩小与闭源模型的差距。为了进一步推动开源模型能力的边界,我们扩大了模型规模,并推出DeepSeek-V3,这是一个大型混合专家(MoE)模型,具有6710亿个参数,其中每个token激活37亿个参数。

从前瞻性的角度来看,我们始终努力追求强大的模型性能和经济的成本。因此,在架构方面,DeepSeek-V3仍然采用多头潜在注意力(MLA)(DeepSeek-AI, 2024c)以实现高效推理,并采用DeepSeekMoE(Dai et al., 2024)以实现经济实惠的训练。这两种架构在DeepSeek-V2中得到了验证,证明了它们在实现高效训练和推理的同时,能够保持强大的模型性能。除了基本架构外,我们还实施了两种额外策略,以进一步增强模型能力。首先,DeepSeek-V3开创了一种无辅助损失的负载平衡策略(Wang et al., 2024a),旨在最小化由于努力促进负载平衡而对模型性能产生的不利影响。其次,DeepSeek-V3采用了多token预测训练目标,我们观察到这增强了在评估基准上的整体性能。

为了实现高效训练,我们支持FP8混合精度训练,并对训练框架进行了全面优化。低精度训练已成为高效训练的一个有前景的解决方案(Dettmers et al., 2022; Kalamkar et al., 2019; Narang et al., 2017; Peng et al., 2023b),其演变与硬件能力的进步密切相关(Luo et al., 2024; Micikevicius et al., 2022; Rouhani et al., 2023a)。在这项工作中,我们引入了FP8混合精度训练框架,并首次验证其在极大规模模型上的有效性。通过支持FP8计算和存储,我们实现了加速训练和减少GPU内存使用。至于训练框架,我们设计了DualPipe算法以实现高效的管道并行性,该算法具有更少的管道气泡,并通过计算与通信的重叠来隐藏大部分训练过程中的通信。这种重叠确保了随着模型的进一步扩展,只要我们保持恒定的计算与通信比率,就可以在各节点之间使用细粒度的专家,同时实现接近零的全到全通信开销。此外,我们还开发了高效的跨节点全到全通信内核,以充分利用InfiniBand(IB)和NVLink带宽。此外,我们还精心优化了内存占用,使得在不使用昂贵的张量并行性的情况下训练DeepSeek-V3成为可能。通过这些努力,我们实现了高训练效率。

在预训练阶段,我们在148万亿个高质量和多样化的token上训练DeepSeek-V3。预训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失峰值,也不需要回滚。接下来,我们对DeepSeek-V3进行两阶段的上下文长度扩展。在第一阶段,最大上下文长度扩展到32K,在第二阶段进一步扩展到128K。随后,我们对DeepSeek-V3的基础模型进行后训练,包括监督微调(SFT)和强化学习(RL),以使其与人类偏好对齐,并进一步释放其潜力。在后训练阶段,我们从DeepSeekR1系列模型中提炼推理能力,同时仔细保持模型准确性与生成长度之间的平衡。

我们在一系列基准测试中评估DeepSeek-V3。尽管其训练成本经济,但全面评估显示,DeepSeek-V3-Base已成为当前最强的开源基础模型,尤其在代码和数学方面。其聊天版本也优于其他开源模型,并在一系列标准和开放式基准测试中达到了与领先闭源模型(包括GPT-4o和Claude-3.5-Sonnet)相当的性能。
在这里插入图片描述

最后,我们再次强调DeepSeek-V3的经济训练成本,见表1,这得益于我们对算法、框架和硬件的优化共同设计。在预训练阶段,训练DeepSeek-V3每万亿个token仅需180K H800 GPU小时,即在我们2048 H800 GPU的集群上仅需3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,耗时2664K GPU小时。结合上下文长度扩展的119K GPU小时和后训练的5K GPU小时,DeepSeek-V3的完整训练仅需2.788M GPU小时。假设H800 GPU的租赁价格为每小时2美元,我们的总训练成本仅为557.6万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与先前研究和架构、算法或数据的消融实验相关的成本。

我们的主要贡献包括:

架构:创新的负载平衡策略和训练目标

  • 在DeepSeek-V2高效架构的基础上,我们开创了一种无辅助损失的负载平衡策略,旨在最小化因促进负载平衡而导致的性能下降。
  • 我们研究了一种多token预测(MTP)目标,并证明其对模型性能的益处。该目标还可以用于推测解码,以加速推理过程。

预训练:追求终极训练效率

  • 我们设计了一个FP8混合精度训练框架,并首次验证了FP8训练在极大规模模型上的可行性和有效性。
  • 通过算法、框架和硬件的共同设计,我们克服了跨节点MoE训练中的通信瓶颈,实现了几乎完全的计算与通信重叠。这显著提高了我们的训练效率并降低了训练成本,使我们能够在没有额外开销的情况下进一步扩大模型规模。
  • 以仅2.664M H800 GPU小时的经济成本,我们在148万亿个token上完成了DeepSeek-V3的预训练,产生了当前最强的开源基础模型。预训练后的后续训练阶段仅需0.1M GPU小时。

后训练:来自DeepSeek-R1的知识蒸馏

  • 我们引入了一种创新的方法,将推理能力从长链思维(CoT)模型,特别是从DeepSeek R1系列模型之一,蒸馏到标准的LLM中,尤其是DeepSeek-V3。我们的流程优雅地将R1的验证和反思模式融入DeepSeek-V3,并显著提高了其推理性能。同时,我们也控制了DeepSeek-V3的输出风格和长度。

核心评估结果摘要

  • 知识:(1)在教育基准测试中,如MMLU、MMLU-Pro和GPQA,DeepSeek-V3超越所有其他开源模型,在MMLU上取得88.5分,在MMLU-Pro上取得75.9分,在GPQA上取得59.1分。其性能与领先的闭源模型如GPT-4o和Claude-Sonnet-3.5相当,缩小了这一领域开源模型与闭源模型之间的差距。(2)在事实性基准测试中,DeepSeek-V3在SimpleQA和Chinese SimpleQA上表现优于其他开源模型。尽管在英语事实知识(SimpleQA)上落后于GPT-4o和Claude-Sonnet-3.5,但在中文事实知识(Chinese SimpleQA)上超越了这些模型,突显了其在中文事实知识方面的优势。

  • 代码、数学和推理:(1)DeepSeek-V3在所有非长链思维(long-CoT)开源和闭源模型中,在数学相关基准测试上取得了最先进的性能。值得注意的是,它在特定基准测试(如MATH-500)上甚至超越了o1-preview,展示了其强大的数学推理能力。(2)在编码相关任务中,DeepSeek-V3成为编码竞赛基准(如LiveCodeBench)中的最佳表现模型,巩固了其在该领域的领先地位。在工程相关任务中,尽管DeepSeek-V3的表现略低于Claude-Sonnet-3.5,但仍显著超越所有其他模型,展示了其在多样化技术基准测试中的竞争力。

在本文的其余部分,我们首先详细介绍DeepSeek-V3模型架构(第2节)。随后,我们介绍我们的基础设施,包括计算集群、训练框架、FP8训练支持、推理部署策略以及我们对未来硬件设计的建议。接下来,我们描述我们的预训练过程,包括训练数据的构建、超参数设置、长上下文扩展技术、相关评估以及一些讨论(第4节)。然后,我们讨论后训练的努力,包括监督微调(SFT)、强化学习(RL)、相应的评估和讨论(第5节)。最后,我们总结这项工作,讨论DeepSeek-V3的现有局限性,并提出未来研究的潜在方向(第6节)。

2 架构

我们首先介绍DeepSeek-V3的基本架构,其特点是采用多头潜在注意力(Multi-head Latent Attention, MLA)(DeepSeek-AI, 2024c)以实现高效推理,并使用DeepSeekMoE(Dai et al., 2024)以实现经济训练。接着,我们提出了一种多token预测(Multi-Token Prediction, MTP)训练目标,我们观察到该目标能够提升评估基准上的整体性能。对于其他未明确提及的细节,DeepSeek-V3遵循DeepSeek-V2的设置(DeepSeek-AI, 2024c)。

2.1 基本架构

DeepSeek-V3的基本架构仍然基于Transformer框架(Vaswani et al., 2017)。为了实现高效推理和经济训练,DeepSeek-V3同样采用了MLA和DeepSeekMoE,这些在DeepSeek-V2中得到了充分验证。与DeepSeek-V2相比,唯一的例外是我们额外引入了一种无辅助损失的负载平衡策略(Wang et al., 2024a),以减轻确保负载平衡所带来的性能下降。图2展示了DeepSeek-V3的基本架构,我们将在本节中简要回顾MLA和DeepSeekMoE的细节。

在这里插入图片描述

2.1.1 多头潜在注意力

对于注意力机制,DeepSeek-V3采用了多头潜在注意力(MLA)架构。设 d d d表示嵌入维度, n h n_{h} nh表示注意力头的数量, d h d_{h} dh表示每个头的维度, h t ∈ R d \mathbf{h}_{t} \in \mathbb{R}^{d} htRd表示在给定注意力层中第 t t t个token的注意力输入。MLA的核心是对注意力键和值进行低秩联合压缩,以减少推理期间的键-值(KV)缓存:
c t K V = W D K V h t [ k t , 1 C ; k t , 2 C ; … ; k t , n h C ] = k t C = W U K c t K V k t R = RoPE ⁡ ( W K R h t ) , k t , i = [ k t , i C ; k t R ] , [ v t , 1 C ; v t , 2 C ; … ; v t , n h C ] = v t C = W U V c t K V , \begin{aligned} \boxed{\mathbf{c}_{t}^{K V}} &=W^{D K V} \mathbf{h}_{t} \\ \left[\mathbf{k}_{t, 1}^{C} ; \mathbf{k}_{t, 2}^{C} ; \ldots ; \mathbf{k}_{t, n_{h}}^{C}\right]=\mathbf{k}_{t}^{C} &=W^{U K} \mathbf{c}_{t}^{K V} \\ \mathbf{k}_{t}^{R} &=\operatorname{RoPE}\left(W^{K R} \mathbf{h}_{t}\right), \\ \mathbf{k}_{t, i} &=\left[\mathbf{k}_{t, i}^{C} ; \mathbf{k}_{t}^{R}\right], \\ \left[\mathbf{v}_{t, 1}^{C} ; \mathbf{v}_{t, 2}^{C} ; \ldots ; \mathbf{v}_{t, n_{h}}^{C}\right]=\mathbf{v}_{t}^{C} &=W^{U V} \mathbf{c}_{t}^{K V}, \end{aligned} ctKV[kt,1C;kt,2C;;kt,nhC]=ktCktRkt,i[vt,1C;vt,2C;;vt,nhC]=vtC=WDKVht=WUKctKV=RoPE(WKRht),=[kt,iC;ktR],=WUVctKV,
其中, c t K V ∈ R d c \mathbf{c}_{t}^{K V} \in \mathbb{R}^{d_{c}} ctKVRdc是键和值的压缩潜在向量; d c ( ≪ d h n h ) d_{c}\left(\ll d_{h} n_{h}\right) dc(dhnh)表示KV压缩维度; W D K V ∈ R d c × d W^{D K V} \in \mathbb{R}^{d_{c} \times d} WDKVRdc×d表示下投影矩阵; W U K , W U V ∈ R d h n h × d c W^{U K}, W^{U V} \in \mathbb{R}^{d_{h} n_{h} \times d_{c}} WUK,WUVRdhnh×dc分别是键和值的上投影矩阵; W K R ∈ R d h R × d W^{K R} \in \mathbb{R}^{d_{h}^{R} \times d} WKRRdhR×d是用于生成携带旋转位置嵌入(RoPE)(Su等,2024)的解耦键的矩阵;RoPE( ⋅ \cdot )表示应用RoPE矩阵的操作; [ ⋅ ] [\cdot] []表示拼接。注意,对于MLA,在生成期间只需缓存蓝色方框中的向量(即 c t K V \mathbf{c}_{t}^{K V} ctKV k t R \mathbf{k}_{t}^{R} ktR),这可以显著减少KV缓存,同时保持与标准多头注意力(MHA)(Vaswani等,2017)相当的性能。

对于注意力查询,我们也进行了低秩压缩,这可以减少训练期间的激活内存:
c t Q = W D Q h t [ q t , 1 C ; q t , 2 C ; … ; q t , n h C ] = q t C = W U Q c t Q [ q t , 1 R ; q t , 2 R ; … ; q t , n h R ] = q t R = RoPE ⁡ ( W Q R c t Q ) q t , i = [ q t , i C ; q t , i R ] \begin{aligned} \mathbf{c}_{t}^{Q} &=W^{D Q} \mathbf{h}_{t} \\ \left[\mathbf{q}_{t, 1}^{C} ; \mathbf{q}_{t, 2}^{C} ; \ldots ; \mathbf{q}_{t, n_{h}}^{C}\right]=\mathbf{q}_{t}^{C} &=W^{U Q} \mathbf{c}_{t}^{Q} \\ \left[\mathbf{q}_{t, 1}^{R} ; \mathbf{q}_{t, 2}^{R} ; \ldots ; \mathbf{q}_{t, n_{h}}^{R}\right]=\mathbf{q}_{t}^{R} &=\operatorname{RoPE}\left(W^{Q R} \mathbf{c}_{t}^{Q}\right) \\ \mathbf{q}_{t, i} &=\left[\mathbf{q}_{t, i}^{C} ; \mathbf{q}_{t, i}^{R}\right] \end{aligned} ctQ[qt,1C;qt,2C;;qt,nhC]=qtC[qt,1R;qt,2R;;qt,nhR]=qtRqt,i=WDQht=WUQctQ=RoPE(WQRctQ)=[qt,iC;qt,iR]
其中, c t Q ∈ R d c ′ \mathbf{c}_{t}^{Q} \in \mathbb{R}^{d_{c}^{\prime}} ctQRdc是查询的压缩潜在向量; d c ′ ( ≪ d h n h ) d_{c}^{\prime}\left(\ll d_{h} n_{h}\right) dc(dhnh)表示查询压缩维度; W D Q ∈ R d c ′ × d , W U Q ∈ R d h n h × d c ′ W^{D Q} \in \mathbb{R}^{d_{c}^{\prime} \times d}, W^{U Q} \in \mathbb{R}^{d_{h} n_{h} \times d_{c}^{\prime}} WDQRdc×d,WUQRdhnh×dc分别是查询的下投影和上投影矩阵; W Q R ∈ R d h R n h × d c ′ W^{Q R} \in \mathbb{R}^{d_{h}^{R} n_{h} \times d_{c}^{\prime}} WQRRdhRnh×dc是用于生成携带RoPE的解耦查询的矩阵。

最终,将注意力查询 ( q t , i ) \left(\mathbf{q}_{t, i}\right) (qt,i)、键 ( k j , i ) \left(\mathbf{k}_{j, i}\right) (kj,i)和值 ( v j , i C ) \left(\mathbf{v}_{j, i}^{C}\right) (vj,iC)结合起来,得到最终的注意力输出 u t \mathbf{u}_{t} ut
o t , i = ∑ j = 1 t Softmax ⁡ j ( q t , i T k j , i d h + d h R ) v j , i C u t = W O [ o t , 1 ; o t , 2 ; … ; o t , n h ] \begin{aligned} \mathbf{o}_{t, i} &=\sum_{j=1}^{t} \operatorname{Softmax}_{j}\left(\frac{\mathbf{q}_{t, i}^{T} \mathbf{k}_{j, i}}{\sqrt{d_{h}+d_{h}^{R}}}\right) \mathbf{v}_{j, i}^{C} \\ \mathbf{u}_{t} &=W^{O}\left[\mathbf{o}_{t, 1} ; \mathbf{o}_{t, 2} ; \ldots ; \mathbf{o}_{t, n_{h}}\right] \end{aligned} ot,iut=j=1tSoftmaxj dh+dhR qt,iTkj,i vj,iC=WO[ot,1;ot,2;;ot,nh]
其中, W O ∈ R d × d h n h W^{O} \in \mathbb{R}^{d \times d_{h} n_{h}} WORd×dhnh表示输出投影矩阵。

2.1.2 无辅助损失的DeepSeekMoE负载均衡

DeepSeekMoE的基本架构。对于前馈网络(FFN),DeepSeek-V3采用了DeepSeekMoE架构(Dai等,2024)。与传统MoE架构(如GShard(Lepikhin等,2021))相比,DeepSeekMoE使用粒度更细的专家,并将部分专家作为共享专家进行隔离。设 u t \mathbf{u}_{t} ut表示第 t t t个token的FFN输入,我们计算FFN输出 h t ′ \mathbf{h}_{t}^{\prime} ht如下:
h t ′ = u t + ∑ i = 1 N s FFN ⁡ i ( s ) ( u t ) + ∑ i = 1 N r g i , t F F N i ( r ) ( u t ) , g i , t = g i , t ′ ∑ j = 1 N r g j , t ′ , g i , t ′ = { s i , t , s i , t ∈ Topk ⁡ ( { s j , t ∣ 1 ⩽ j ⩽ N r } , K r ) , 0 ,  其他情况  , s i , t = Sigmoid ⁡ ( u t T e i ) , \begin{array}{l} \mathbf{h}_{t}^{\prime}=\mathbf{u}_{t}+\sum_{i=1}^{N_{s}} \operatorname{FFN}_{i}^{(s)}\left(\mathbf{u}_{t}\right)+\sum_{i=1}^{N_{r}} g_{i, t} \mathrm{FFN}_{i}^{(r)}\left(\mathbf{u}_{t}\right), \\ g_{i, t}=\frac{g_{i, t}^{\prime}}{\sum_{j=1}^{N_{r}} g_{j, t}^{\prime}}, \\ g_{i, t}^{\prime}=\left\{\begin{array}{ll} s_{i, t}, & s_{i, t} \in \operatorname{Topk}\left(\left\{s_{j, t} \mid 1 \leqslant j \leqslant N_{r}\right\}, K_{r}\right), \\ 0, & \text { 其他情况 }, \end{array}\right. \\ s_{i, t}=\operatorname{Sigmoid}\left(\mathbf{u}_{t}^{T} \mathbf{e}_{i}\right), \end{array} ht=ut+i=1NsFFNi(s)(ut)+i=1Nrgi,tFFNi(r)(ut),gi,t=j=1Nrgj,tgi,t,gi,t={si,t,0,si,tTopk({sj,t1jNr},Kr), 其他情况 ,si,t=Sigmoid(utTei),
其中, N s N_{s} Ns N r N_{r} Nr分别表示共享专家和路由专家的数量; F F N i ( s ) ( ⋅ ) \mathrm{FFN}_{i}^{(s)}(\cdot) FFNi(s)() F F N i ( r ) ( ⋅ ) \mathrm{FFN}_{i}^{(r)}(\cdot) FFNi(r)()分别表示第 i i i个共享专家和第 i i i个路由专家; K r K_{r} Kr表示激活的路由专家数量; g i , t g_{i, t} gi,t是第 i i i个专家的门控值; s i , t s_{i, t} si,t是token与专家的亲和度; e i \mathbf{e}_{i} ei是第 i i i个路由专家的质心向量; Topk ⁡ ( ⋅ , K ) \operatorname{Topk}(\cdot, K) Topk(,K)表示在第 t t t个token与所有路由专家计算得到的亲和度分数中取最高的 K K K个分数的集合。与DeepSeek-V2略有不同,DeepSeek-V3使用sigmoid函数计算亲和度分数,并在所有选定的亲和度分数之间进行归一化以产生门控值。

无辅助损失的负载均衡。对于MoE模型,专家负载不平衡会导致路由崩溃(Shazeer等,2017),并在专家并行场景中降低计算效率。传统解决方案通常依赖于辅助损失(Fedus等,2021;Lepikhin等,2021)来避免负载不平衡。然而,过大的辅助损失会损害模型性能(Wang等,2024a)。为了在负载均衡和模型性能之间实现更好的权衡,我们开创了一种无辅助损失的负载均衡策略(Wang等,2024a)以确保负载均衡。具体来说,我们为每个专家引入一个偏置项 b i b_{i} bi,并将其添加到相应的亲和度分数 s i , t s_{i, t} si,t中,以确定top-K路由:
g i , t ′ = { s i , t , s i , t + b i ∈ Topk ⁡ ( { s j , t + b j ∣ 1 ⩽ j ⩽ N r } , K r ) 0 ,  其他情况  g_{i, t}^{\prime}=\left\{\begin{array}{ll} s_{i, t}, & s_{i, t}+b_{i} \in \operatorname{Topk}\left(\left\{s_{j, t}+b_{j} \mid 1 \leqslant j \leqslant N_{r}\right\}, K_{r}\right) \\ 0, & \text { 其他情况 } \end{array}\right. gi,t={si,t,0,si,t+biTopk({sj,t+bj1jNr},Kr) 其他情况 

注意,偏置项仅用于路由。门控值(将与FFN输出相乘)仍然源自原始的亲和度分数 s i , t s_{i, t} si,t。在训练过程中,我们持续监控每个训练步骤中整个批次上的专家负载。在每个步骤结束时,如果其对应的专家过载,我们将减少其偏置项 b i b_{i} bi的值,如果其对应的专家欠载,则增加其偏置项 b i b_{i} bi的值,其中 γ \gamma γ是一个称为偏置更新速度的超参数。通过动态调整,DeepSeek-V3在训练过程中保持专家负载平衡,并实现了比通过纯辅助损失鼓励负载均衡的模型更好的性能。

互补序列级辅助损失。尽管DeepSeek-V3主要依赖无辅助损失策略来实现负载均衡,但为了防止任何单一序列内部出现极端不平衡,我们还采用了一种互补的序列级平衡损失:

L Bal  = α ∑ i = 1 N r f i P i f i = N r K r T ∑ t = 1 T 1 ( s i , t ∈ Topk ⁡ ( { s j , t ∣ 1 ⩽ j ⩽ N r } , K r ) ) s i , t ′ = s i , t ∑ j = 1 N r s j , t , P i = 1 T ∑ t = 1 T s i , t ′ ′ \begin{array}{c}\mathcal{L}_{\text {Bal }}=\alpha \sum_{i=1}^{N_{r}} f_{i} P_{i} \\f_{i}=\frac{N_{r}}{K_{r} T} \sum_{t=1}^{T} \mathbb{1}\left(s_{i, t} \in \operatorname{Topk}\left(\left\{s_{j, t} \mid 1 \leqslant j \leqslant N_{r}\right\}, K_{r}\right)\right) \\s_{i, t}^{\prime}=\frac{s_{i, t}}{\sum_{j=1}^{N_{r}} s_{j, t}}, \\P_{i}=\frac{1}{T} \sum_{t=1}^{T} s_{i, t^{\prime}}^{\prime}\end{array} LBal =αi=1NrfiPifi=KrTNrt=1T1(si,tTopk({sj,t1jNr},Kr))si,t=j=1Nrsj,tsi,t,Pi=T1t=1Tsi,t

其中,平衡因子 α \alpha α是一个超参数,在DeepSeek-V3中会被赋予一个极小的值; 1 ( ⋅ ) \mathbb{1}(\cdot) 1()表示指示函数; T T T表示序列中token的数量。序列级平衡损失旨在鼓励每个序列上的专家负载保持平衡。

节点限制路由。与DeepSeek-V2使用的设备限制路由类似,DeepSeek-V3也使用了一种受限的路由机制来限制训练期间的通信成本。简而言之,我们确保每个token最多会被发送到 M M M个节点,这些节点是根据分布在每个节点上的专家最高 K r M \frac{K_{r}}{M} MKr亲和度分数的总和来选择的。在这一约束下,我们的混合专家(Mixture of Experts, MoE)训练框架几乎可以实现完全的计算-通信重叠。

无token丢弃。由于采用了有效的负载均衡策略,DeepSeek-V3在整个训练过程中都保持着良好的负载均衡。因此,DeepSeek-V3在训练期间不会丢弃任何token。此外,我们还实施了特定的部署策略来确保推理负载均衡,所以DeepSeek-V3在推理期间也不会丢弃token。

2.2 多token预测

在这里插入图片描述

受Gloeckle等人(2024)的启发,我们为DeepSeek-V3研究和设定了一个多token预测(Multi-Token Prediction, MTP)目标,该目标将预测范围扩展到每个位置上的多个未来token。一方面,MTP目标使训练信号更加密集,可能会提高数据效率。另一方面,MTP可能使模型能够为其未来token的更好预测预先规划其表示。图3展示了我们的MTP实现。与Gloeckle等人(2024)使用独立的输出头并行预测 D D D个额外token不同,我们按顺序预测额外的token,并在每个预测深度保持完整的因果链。本节将介绍我们MTP实现的详细信息。
MTP模块。具体而言,我们的MTP实现使用 D D D个顺序模块来预测 D D D个额外token。第 k k k个MTP模块由一个共享嵌入层Emb( ⋅ \cdot ),一个共享输出头OutHead( ⋅ \cdot ),一个Transformer块 TRM ⁡ k ( ⋅ ) \operatorname{TRM}_{k}(\cdot) TRMk(),以及一个投影矩阵 M k ∈ R d × 2 d M_{k} \in \mathbb{R}^{d \times 2d} MkRd×2d组成。对于第 i i i个输入token t i t_{i} ti,在第 k k k个预测深度,我们首先将第 i i i个token在第 ( k − 1 ) (k-1) (k1)深度的表示 h i k − 1 ∈ R d \mathbf{h}_{i}^{k-1} \in \mathbb{R}^{d} hik1Rd和第 ( i + k ) (i+k) (i+k)个token的嵌入 E m b ( t i + k ) ∈ R d Emb\left(t_{i+k}\right) \in \mathbb{R}^{d} Emb(ti+k)Rd通过线性投影进行拼接:

h i ′ k = M k [ RMSNorm ⁡ ( h i k − 1 ) ; RMSNorm ⁡ ( Emb ⁡ ( t i + k ) ) ] \mathbf{h}_{i}^{\prime k}=M_{k}\left[\operatorname{RMSNorm}\left(\mathbf{h}_{i}^{k-1}\right) ; \operatorname{RMSNorm}\left(\operatorname{Emb}\left(t_{i+k}\right)\right)\right] hik=Mk[RMSNorm(hik1);RMSNorm(Emb(ti+k))]

其中 [ ⋅ ; ⋅ ] [\cdot ; \cdot] [;]表示拼接。特别地,当 k = 1 k=1 k=1时, h i k − 1 \mathbf{h}_{i}^{k-1} hik1指的是主模型给出的表示。注意,对于每个MTP模块,其嵌入层与主模型是共享的。拼接后的 h i ′ k \mathbf{h}_{i}^{\prime k} hik作为第 k k k深度Transformer块的输入,以产生当前深度的输出表示 h i k \mathbf{h}_{i}^{k} hik

h 1 : T − k k = T R M k ( h 1 : T − k ′ k ) \mathbf{h}_{1: T-k}^{k}=\mathrm{TRM}_{k}\left(\mathbf{h}_{1: T-k}^{\prime k}\right) h1:Tkk=TRMk(h1:Tkk)

其中 T T T表示输入序列长度, i : j { }_{i: j} i:j表示切片操作(包括左右边界)。最后,以 h i k \mathbf{h}_{i}^{k} hik为输入,共享输出头将计算第 k k k个额外预测token P i + 1 + k k ∈ R V P_{i+1+k}^{k} \in \mathbb{R}^{V} Pi+1+kkRV的概率分布,其中 V V V是词汇表大小:

P i + k + 1 k = OutHead ⁡ ( h i k ) P_{i+k+1}^{k}=\operatorname{OutHead}\left(\mathbf{h}_{i}^{k}\right) Pi+k+1k=OutHead(hik)

输出头OutHead( ⋅ \cdot )将表示线性映射到logits,然后应用 Softmax ⁡ ( ⋅ ) \operatorname{Softmax}(\cdot) Softmax()函数来计算第 k k k个额外token的预测概率。此外,对于每个MTP模块,其输出头也与主模型共享。我们保持预测因果链的原则与EAGLE(Li et al., 2024b)相似,但其主要目标是投机解码(Leviathan et al., 2023; Xia et al., 2023),而我们利用MTP来改善训练。

MTP训练目标。对于每个预测深度,我们计算一个交叉熵损失 L M T P k \mathcal{L}_{\mathrm{MTP}}^{k} LMTPk

L M T P k = CrossEntropy ⁡ ( P 2 + k : T + 1 k , t 2 + k : T + 1 ) = − 1 T ∑ i = 2 + k T + 1 log ⁡ P i k [ t i ] \mathcal{L}_{\mathrm{MTP}}^{k}=\operatorname{CrossEntropy}\left(P_{2+k: T+1}^{k}, t_{2+k: T+1}\right)=-\frac{1}{T} \sum_{i=2+k}^{T+1} \log P_{i}^{k}\left[t_{i}\right] LMTPk=CrossEntropy(P2+k:T+1k,t2+k:T+1)=T1i=2+kT+1logPik[ti]

其中 T T T表示输入序列长度, t i t_{i} ti表示第 i i i位置的真实token, P i k [ t i ] P_{i}^{k}\left[t_{i}\right] Pik[ti]表示由第 k k k个MTP模块给出的 t i t_{i} ti的相应预测概率。最后,我们计算所有深度上MTP损失的平均值,并乘以一个加权因子 λ \lambda λ,以获得总体MTP损失 L MTP  \mathcal{L}_{\text {MTP }} LMTP ,这作为DeepSeek-V3的额外训练目标:

L M T P = λ D ∑ k = 1 D L M T P k \mathcal{L}_{\mathrm{MTP}}=\frac{\lambda}{D} \sum_{k=1}^{D} \mathcal{L}_{\mathrm{MTP}}^{k} LMTP=Dλk=1DLMTPk

推理中的MTP。我们的MTP策略主要旨在提高主模型的性能,因此在推理期间,我们可以直接丢弃MTP模块,主模型可以独立且正常地工作。此外,我们还可以将这些MTP模块重新用于投机解码,以进一步减少生成延迟。

3 基础设施

3.1 计算集群

DeepSeek-V3是在一个配备2048个NVIDIA H800 GPU的集群上进行训练的。H800集群中的每个节点都包含8个GPU,这些GPU通过节点内的NVLink和NVSwitch相互连接。在不同的节点之间,采用InfiniBand(IB)互连以促进通信。

3.2 训练框架

DeepSeek-V3的训练得到了HAI-LLM框架的支持,该框架是由我们的工程师从头开始打造的一个高效且轻量级的训练框架。总体而言,DeepSeek-V3采用了16路管道并行(PP)(Qi等,2023a),跨越8个节点的64路专家并行(EP)(Lepikhin等,2021),以及ZeRO-1数据并行(DP)(Rajbhandari等,2020)。

为了促进DeepSeek-V3的高效训练,我们实施了细致的工程优化。首先,我们设计了DualPipe算法以实现高效的管道并行。与现有的PP方法相比,DualPipe的管道气泡更少。更重要的是,它在正向和反向过程中重叠了计算和通信阶段,从而解决了跨节点专家并行引入的高通信开销的挑战。其次,我们开发了高效的跨节点全对全通信内核,以充分利用IB和NVLink带宽,并节省专门用于通信的流多处理器(SM)。最后,我们精心优化了训练期间的内存占用,从而能够在不使用昂贵的张量并行(TP)的情况下训练DeepSeek-V3。

3.2.1 DualPipe与计算-通信重叠

对于DeepSeek-V3,跨节点专家并行引入的通信开销导致计算与通信的比率低效,大约为1:1。为了应对这一挑战,我们设计了一种创新的管道并行算法,称为DualPipe,它不仅通过有效地重叠正向和反向计算-通信阶段来加速模型训练,还减少了管道气泡。
在这里插入图片描述
DualPipe的关键思想是在一对单独的正向和反向块内重叠计算和通信。具体来说,我们将每个块分为四个部分:注意力、全对全分发、多层感知器(MLP)和全对全合并。特别地,对于一个反向块,注意力和MLP都进一步分为两部分,分别是输入的反向和权重的反向,类似于ZeroBubble(Qi等,2023b)。此外,我们还有一个PP通信组件。如图4所示,对于一对正向和反向块,我们重新排列这些组件,并手动调整专门用于通信与计算的GPU SM的比例。在这种重叠策略中,我们可以确保全对全通信和PP通信在执行过程中都可以被完全隐藏。鉴于这种高效的重叠策略,完整的DualPipe调度如图5所示。它采用双向管道调度,同时从管道的两端馈入微批次,并且有很大一部分通信可以完全重叠。这种重叠还确保了随着模型的进一步扩展,只要我们保持恒定的计算-通信比率,我们仍然可以在节点之间使用细粒度的专家,同时实现接近零的全对全通信开销。
在这里插入图片描述

此外,即使在通信负担较轻的更一般场景中,DualPipe仍然展现出效率优势。在表2中,我们总结了不同管道并行(PP)方法中的管道气泡和内存使用情况。如表所示,与ZB1P(Qi等,2023b)和1F1B(Harlap等,2018)相比,DualPipe显著减少了管道气泡,同时仅将峰值激活内存增加了 1 P P \frac{1}{PP} PP1倍。尽管DualPipe需要保留两份模型参数副本,但由于我们在训练期间使用了较大的专家并行(EP)规模,这并不会显著增加内存消耗。与Chimera(Li和Hoefler,2021)相比,DualPipe仅要求管道阶段和微批次可以被2整除,而不需要微批次能被管道阶段整除。此外,对于DualPipe,随着微批次数量的增加,气泡和激活内存都不会增加。

3.2.2 跨节点全对全通信的高效实现

为了确保DualPipe具有足够的计算性能,我们定制了高效的跨节点全对全通信内核(包括分发和合并),以减少专门用于通信的流多处理器(SM)数量。这些内核的实现与我们的混合专家(MoE)门控算法和集群的网络拓扑结构共同设计。具体来说,在我们的集群中,跨节点GPU通过InfiniBand(IB)完全互连,而节点内通信则通过NVLink处理。NVLink提供的带宽为 160   G B / s 160 \mathrm{~GB} / \mathrm{s} 160 GB/s,大约是IB( 50   G B / s 50 \mathrm{~GB} / \mathrm{s} 50 GB/s)的3.2倍。为了有效利用IB和NVLink的不同带宽,我们将每个token的分发限制在最多4个节点,从而减少IB流量。对于每个token,当其路由决策确定后,它将首先通过IB传输到目标节点上具有相同节点索引的GPU。一旦到达目标节点,我们将努力确保它立即通过NVLink转发到托管其目标专家的特定GPU,而不会被随后到达的token阻塞。这样,IB和NVLink的通信可以完全重叠,并且每个token可以高效地平均选择每个节点上的3.2个专家,而不会因NVLink而产生额外开销。这意味着,尽管DeepSeek-V3在实践中仅选择8个路由专家,但它可以将此数量扩展到最多13个专家( 4 节点 × 3.2 专家/节点 4 \text{节点} \times 3.2 \text{专家/节点} 4节点×3.2专家/节点),同时保持相同的通信成本。总体而言,在这种通信策略下,仅需20个SM就足以充分利用IB和NVLink的带宽。

具体来说,我们采用了warp特化技术(Bauer等,2014),并将20个SM划分为10个通信通道。在分发过程中,(1)IB发送、(2)IB到NVLink转发和(3)NVLink接收分别由各自的warp处理。分配给每个通信任务的warp数量会根据所有SM上的实际工作量动态调整。同样,在合并过程中,(1)NVLink发送、(2)NVLink到IB转发和累加以及(3)IB接收和累加也由动态调整的warp处理。此外,分发和合并内核与计算流重叠,因此我们还考虑了它们对其他SM计算内核的影响。具体来说,我们使用了定制的PTX(并行线程执行)指令,并自动调整通信块大小,这显著减少了L2缓存的使用并减少了对其他SM的干扰。

3.2.3 极少开销下的极致内存节省

为了减少训练期间的内存占用,我们采用了以下技术。

RMSNorm和MLA上投影的重计算。我们在反向传播过程中重新计算所有RMSNorm操作和MLA上投影,从而消除了持续存储其输出激活的需求。以极小的开销,此策略显著降低了存储激活所需的内存。

CPU中的指数移动平均。在训练期间,我们保留模型参数的指数移动平均(EMA),以便在学习率衰减后早期估计模型性能。EMA参数存储在CPU内存中,并在每个训练步骤后异步更新。这种方法使我们能够在不产生额外内存或时间开销的情况下维护EMA参数。

多token预测中的共享嵌入和输出头。采用DualPipe策略,我们将模型的最浅层(包括嵌入层)和最深层(包括输出头)部署在相同的PP等级上。这种安排使得多token预测(MTP)模块和主模型之间可以物理共享共享嵌入和输出头的参数和梯度。这种物理共享机制进一步提高了我们的内存效率。

3.3 FP8 训练

受低精度训练领域最新进展的启发(Dettmers等人,2022;Noune等人,2022;Peng等人,2023b),我们提出了一个利用FP8数据格式训练DeepSeek-V3的细粒度混合精度框架。尽管低精度训练前景广阔,但它常受激活值、权重和梯度中存在异常值的限制(Fishman等人,2024;He等人;Sun等人,2024)。虽然在推理量化方面已取得显著进展(Frantar等人,2022;Xiao等人,2023),但关于低精度技术在大规模语言模型预训练中的成功应用的研究相对较少(Fishman等人,2024)。为应对这一挑战并有效扩展FP8格式的动态范围,我们引入了一种细粒度量化策略: 1 × N c 1 \times N_{c} 1×Nc元素的瓦片式分组或 N c × N c N_{c} \times N_{c} Nc×Nc元素的块式分组。在我们的高精度累加过程中,相关的反量化开销得到了很大程度的缓解,这对于实现精确的FP8通用矩阵乘法(GEMM)至关重要。此外,为进一步减少混合专家(MoE)训练中的内存和通信开销,我们以FP8格式缓存和调度激活值,同时将低精度优化器状态存储在BF16中。我们在两个与DeepSeek-V2-Lite和DeepSeekV2相似的模型规模上验证了所提出的FP8混合精度框架,训练了大约1万亿个token(更多详细信息见附录B.1)。值得注意的是,与BF16基线相比,我们的FP8训练模型的相对损失误差始终保持在 0.25 % 0.25\% 0.25%以下,这一水平在训练随机性的可接受范围内。

3.3.1 混合精度框架

在广泛采用的低精度训练技术基础上(Kalamkar等人,2019;Narang等人,2017),我们为FP8训练提出了一个混合精度框架。在此框架中,大多数计算密集型操作都在FP8中进行,而少数关键操作则战略性地保持在其原始数据格式中,以平衡训练效率和数值稳定性。整体框架如图6所示。
在这里插入图片描述

首先,为了加速模型训练,大多数核心计算内核(即GEMM操作)都以FP8精度实现。这些GEMM操作接受FP8张量作为输入,并以BF16或FP32格式产生输出。如图6所示,与线性算子相关的所有三个GEMM操作,即前向传播(Fprop)、激活反向传播(Dgrad)和权重反向传播(Wgrad),都在FP8中执行。这种设计在理论上将计算速度提高了一倍,与原始的BF16方法相比。此外,FP8的Wgrad GEMM允许将激活值存储在FP8中,以便在反向传播中使用,这显著减少了内存消耗。

尽管FP8格式具有效率优势,但某些算子仍因对低精度计算的敏感性而需要更高的精度。此外,一些低成本算子也可以通过使用更高精度来执行,而对整体训练成本的影响微乎其微。因此,经过仔细研究后,我们对以下组件保持其原始精度(例如,BF16或FP32):嵌入模块、输出头、MoE门控模块、归一化算子和注意力算子。这些有针对性的高精度保留确保了DeepSeek-V3稳定的训练动态。为进一步保证数值稳定性,我们将主权重、权重梯度和优化器状态存储在更高精度中。虽然这些高精度组件会产生一些内存开销,但在我们的分布式训练系统中,通过多个数据并行(DP)秩上的高效分片,可以将其影响降到最低。

3.3.2 量化和乘法中的精度提升

基于我们的混合精度FP8框架,我们引入了几种策略来提高低精度训练的准确性,重点关注量化方法和乘法过程。
在这里插入图片描述

细粒度量化。在低精度训练框架中,由于FP8格式的动态范围有限(受其指数位减少的限制),溢出和下溢是常见的挑战。作为一种标准做法,通过将输入张量的最大绝对值缩放到FP8的最大可表示值(Narang等人,2017),使输入分布与FP8格式的可表示范围对齐。这种方法使得低精度训练对激活异常值高度敏感,从而可能严重降低量化精度。为了解决这个问题,我们提出了一种细粒度量化方法,它在更细粒度的级别上应用缩放。如图7(a)所示,(1)对于激活值,我们在 1 × 128 1 \times 128 1×128的瓦片基础上(即每个token的每128个通道)对元素进行分组和缩放;(2)对于权重,我们在 128 × 128 128 \times 128 128×128的块基础上(即每128个输入通道和每128个输出通道)对元素进行分组和缩放。这种方法通过根据较小的元素组调整缩放比例,确保量化过程可以更好地容纳异常值。在附录B.2中,我们进一步讨论了当以与权重量化相同的方式对激活值进行块级分组和缩放时训练的不稳定性。

我们方法中的一个关键改进是在通用矩阵乘法(GEMM)操作的内部维度上引入了每组缩放因子。标准FP8 GEMM不直接支持此功能。然而,结合我们精确的FP32累积策略,它可以有效地实现。

值得注意的是,我们的细粒度量化策略与微缩放格式的思想高度一致(Rouhani等人,2023b),而NVIDIA下一代GPU(Blackwell系列)的张量核心已经宣布支持具有更小量化粒度的微缩放格式(NVIDIA,2024a)。我们希望我们的设计能为未来的工作提供参考,以跟上最新的GPU架构。

提高累积精度。低精度GEMM操作经常受到下溢问题的影响,其精度在很大程度上取决于高精度累积,这通常在FP32精度下进行(Kalamkar等人,2019;Narang等人,2017)。然而,我们观察到在NVIDIA H800 GPU上,FP8 GEMM的累积精度仅限于保留大约14位,这远低于FP32累积精度。当内部维度 K K K较大时(Wortsman等人,2023),这个问题将变得更加明显,这是在大规模模型训练中增加批量大小和模型宽度时的典型场景。以两个随机矩阵的GEMM操作为例,当 K = 4096 K=4096 K=4096时,在我们的初步测试中,张量核心中有限的累积精度导致最大相对误差接近 2 % 2\% 2%。尽管存在这些问题,有限的累积精度仍然是少数FP8框架中的默认选项(NVIDIA,2024b),严重限制了训练精度。

为了解决这个问题,我们采用了升级到CUDA核心以获得更高精度的策略(Thakkar等人,2023)。该过程如图7(b)所示。具体来说,在张量核心上执行矩阵乘加(MMA)操作时,中间结果使用有限的位宽进行累积。一旦达到 N C N_{C} NC个元素的间隔,这些部分结果将被复制到CUDA核心的FP32寄存器中,在那里进行全精度FP32累积。如前所述,我们的细粒度量化在内部维度 K K K上应用了每组缩放因子。这些缩放因子可以在CUDA核心上高效地乘以反量化过程,且仅需最小的额外计算成本。

值得注意的是,此修改减少了单个warp组的warp组级矩阵乘加(WGMMA)指令发出率。然而,在H800架构上,两个WGMMA通常同时持续进行:当一个warp组执行升级操作时,另一个warp组能够执行MMA操作。这种设计使得两种操作可以重叠,从而保持张量核心的高利用率。基于我们的实验,设置 N C = 128 N_{C}=128 NC=128个元素(相当于4个WGMMA)表示可以显著提高精度而不引入大量开销的最小累积间隔。

尾数优于指数。与先前工作采用的混合FP8格式(NVIDIA,2024b;Peng等人,2023b;Sun等人,2019b)相比,这些工作在正向传播(Fprop)中使用E4M3(4位指数和3位尾数),在反向传播中的梯度(Dgrad)和权重梯度(Wgrad)中使用E5M2(5位指数和2位尾数),我们对所有张量采用E4M3格式以获得更高精度。我们将这种方法的可行性归因于我们的细粒度量化策略,即瓦片和块级缩放。通过对较小的元素组进行操作,我们的方法在这些分组元素之间有效地共享指数位,从而减轻了有限动态范围的影响。

在线量化。张量级量化框架(NVIDIA,2024b;Peng等人,2023b)中采用了延迟量化,它保留了先前迭代中最大绝对值的历史记录以推断当前值。为了确保准确的缩放比例并简化框架,我们为每个 1 × 128 1 \times 128 1×128的激活瓦片或 128 × 128 128 \times 128 128×128的权重块在线计算最大绝对值。基于此,我们导出缩放因子,然后将激活值或权重在线量化为FP8格式。

3.3.3 低精度存储和通信

结合我们的FP8训练框架,我们通过将缓存的激活值和优化器状态压缩为更低精度的格式,进一步减少了内存消耗和通信开销。

低精度优化器状态。我们采用BF16数据格式而不是FP32来跟踪AdamW(Loshchilov和Hutter,2017)优化器中的第一矩和第二矩,而不会导致可观察到的性能下降。然而,优化器存储的主权重(用于权重更新)和梯度(用于批量大小累积)仍然保留在FP32中,以确保整个训练过程中的数值稳定性。
低精度激活。如图6所示,Wgrad操作在FP8格式下执行。为了减少内存消耗,在线性算子的反向传播过程中,以FP8格式缓存激活值是一个自然的选择。然而,对于低成本高精度训练,我们在几个算子方面进行了特别考虑:

(1) 注意力算子之后的线性算子输入。这些激活值也在注意力算子的反向传播过程中使用,因此它对精度很敏感。我们为这些激活值专门采用了一种定制的E5M6数据格式。此外,在反向传播过程中,这些激活值将从 1 × 128 1 \times 128 1×128的量化块转换为 128 × 1 128 \times 1 128×1的块。为了避免引入额外的量化误差,所有的缩放因子都采用了舍入缩放,即2的整数次幂。

(2) MoE(混合专家)中SwiGLU算子的输入。为了进一步减少内存消耗,我们缓存了SwiGLU算子的输入,并在反向传播过程中重新计算其输出。这些激活值也使用我们的细粒度量化方法存储在FP8格式中,从而在内存效率和计算精度之间取得了平衡。

低精度通信。通信带宽是训练MoE模型的关键瓶颈。为了缓解这一挑战,我们将MoE上投影之前的激活值量化为FP8格式,然后应用分发组件,这与MoE上投影中的FP8前向传播是兼容的。与注意力算子之后的线性算子输入类似,这种激活值的缩放因子也是2的整数次幂。对于MoE下投影之前的激活梯度,我们采用了类似的策略。对于前向和后向组合组件,我们保留了BF16格式,以保持训练管道关键部分的训练精度。

3.4 推理与部署

我们在H800集群上部署了DeepSeek-V3,其中每个节点内的GPU通过NVLink互联,集群内所有GPU通过IB(InfiniBand)完全互联。为了确保在线服务的服务水平目标(SLO)和高吞吐量同时得到满足,我们采用了以下部署策略,将预填充和解码阶段分开。

3.4.1 预填充

预填充阶段的最小部署单元由4个节点组成,每个节点包含32个GPU。注意力部分采用4路张量并行(TP4)与序列并行(SP)结合,同时采用8路数据并行(DP8)。其较小的TP规模(4)限制了TP通信的开销。对于MoE(混合专家)部分,我们使用32路专家并行(EP32),确保每个专家处理足够大的批次大小,从而提高计算效率。对于MoE的全对全通信,我们采用与训练相同的方法:首先通过IB(InfiniBand)跨节点传输token,然后在节点内GPU之间通过NVLink转发。特别地,我们在浅层中的密集MLP(多层感知器)上使用1路张量并行以节省TP通信。

为了在MoE部分的不同专家之间实现负载均衡,我们需要确保每个GPU处理大约相同数量的token。为此,我们引入了一种冗余专家的部署策略,通过复制高负载专家并进行冗余部署来实现。高负载专家是根据在线部署期间收集的统计信息检测出来的,并定期进行调整(例如,每10分钟一次)。在确定了冗余专家集合后,我们根据观察到的负载在一个节点内的GPU之间仔细重新排列专家,力求在尽可能平衡GPU负载的同时,不增加跨节点的全对全通信开销。对于DeepSeek-V3的部署,我们在预填充阶段设置了32个冗余专家。对于每个GPU,除了原本托管的8个专家外,还将托管一个额外的冗余专家。

此外,在预填充阶段,为了提高吞吐量并隐藏全对全和TP通信的开销,我们同时处理两个计算工作量相似的微批次,将一个微批次的注意力和MoE操作与另一个微批次的分发和组合操作重叠。

最后,我们正在探索一种专家动态冗余策略,其中每个GPU托管更多专家(例如,16个),但在每次推理步骤中只激活9个。在每层全对全操作开始之前,我们动态计算全局最优路由方案。鉴于预填充阶段涉及大量计算,计算此路由方案的开销几乎可以忽略不计。

3.4.2 解码

在解码阶段,我们将共享专家视为路由专家。从这个角度来看,每个token在路由过程中将选择9个专家,其中共享专家被视为始终会被选择的高负载专家。解码阶段的最小部署单元由40个节点组成,每个节点包含320个GPU。注意力部分采用TP4与SP结合,同时采用DP80,而MoE部分使用EP320。对于MoE部分,每个GPU仅托管一个专家,64个GPU负责托管冗余专家和共享专家。分发和组合部分的全对全通信通过IB上的直接点对点传输来实现低延迟。此外,我们还利用IBGDA(NVIDIA, 2022)技术进一步降低延迟并提高通信效率。
与预填充类似,我们基于在线服务的统计专家负载,在特定间隔内定期确定冗余专家集合。然而,由于每个GPU仅托管一个专家,因此我们无需重新排列专家。我们还在探索解码的动态冗余策略。但是,这需要更仔细地优化计算全局最优路由方案的算法,并将其与分发内核融合以减少开销。

此外,为了提高吞吐量并隐藏全对全通信的开销,我们还在探索在解码阶段同时处理两个计算工作量相似的微批次。与预填充不同,解码阶段中注意力消耗的时间更长。因此,我们将一个微批次的注意力与另一个微批次的分发+MoE+组合重叠。在解码阶段,每个专家的批次大小相对较小(通常不超过256个token),瓶颈在于内存访问而非计算。由于MoE部分仅需加载一个专家的参数,因此内存访问开销最小,所以使用较少的SM(流多处理器)不会显著影响整体性能。因此,为了避免影响注意力部分的计算速度,我们可以仅分配一小部分SM用于分发+MoE+组合。

3.5 硬件设计建议

基于我们实现的全对全通信和FP8训练方案,我们向AI硬件供应商提出以下芯片设计建议。

3.5.1 通信硬件

在DeepSeek-V3中,我们实现了计算与通信的重叠,以在计算过程中隐藏通信延迟。与串行计算和通信相比,这显著降低了对通信带宽的依赖。然而,当前的通信实现依赖于昂贵的SM(例如,我们在H800 GPU的132个可用SM中分配了20个用于此目的),这将限制计算吞吐量。此外,使用SM进行通信会导致显著的低效,因为张量核心未得到充分利用。

目前,SM在全对全通信中主要执行以下任务:

  • 在IB(InfiniBand)和NVLink域之间转发数据,同时从单个GPU聚合同一节点内多个GPU的IB流量。
  • 在RDMA缓冲区(注册的GPU内存区域)和输入/输出缓冲区之间传输数据。
  • 执行全对全组合的归约操作。
  • 在通过IB和NVLink域向多个专家传输分块数据时管理细粒度内存布局。

我们期望未来的供应商开发能够卸载这些通信任务的硬件,将这些任务从宝贵的计算单元SM中分离出来,作为GPU协处理器或像NVIDIA SHARP(Graham等,2016)那样的网络协处理器。此外,为了降低应用程序编程的复杂性,我们希望这种硬件能够从计算单元的角度统一IB(横向扩展)和NVLink(纵向扩展)网络。通过这个统一接口,计算单元可以轻松地通过提交基于简单原语的通信请求,在整个IB-NVLink统一域内完成读取、写入、多播和归约等操作。

3.5.2 计算硬件

提高张量核心中FP8 GEMM(通用矩阵乘法)的累加精度。在NVIDIA Hopper架构的当前张量核心实现中,FP8 GEMM采用定点累加,在加法之前通过基于最大指数的右移来对齐尾数乘积。我们的实验表明,它仅在符号填充右移后使用每个尾数乘积的最高14位,并截断超出此范围的位。然而,例如,要从32个FP8×FP8乘法的累加中获得精确的FP32结果,至少需要34位精度。因此,我们建议未来的芯片设计提高张量核心中的累加精度以支持全精度累加,或根据训练和推理算法的精度要求选择合适的累加位宽。这种方法在确保误差保持在可接受范围内的同时,保持了计算效率。

支持瓦片和块级量化。当前GPU仅支持按张量量化,缺乏对我们瓦片和块级量化等细粒度量化的原生支持。在当前实现中,当达到 N C N_{C} NC间隔时,部分结果将从张量核心复制到CUDA核心,乘以缩放因子,并加到CUDA核心的FP32寄存器上。尽管结合我们精确的FP32累加策略,反量化开销显著降低,但张量核心和CUDA核心之间的频繁数据移动仍然限制了计算效率。因此,我们建议未来的芯片通过使张量核心能够接收缩放因子并实现带组缩放的MMA(矩阵乘法累加),来支持细粒度量化。这样,整个部分和累加和反量化可以直接在张量核心内完成,直到产生最终结果,从而避免频繁的数据移动。

在线量化支持。尽管我们的研究表明在线量化有效,但当前的实现难以有效支持在线量化。在现有流程中,我们需要从高带宽存储器(HBM)中读取128个BF16激活值(上一次计算的结果)进行量化,然后将量化后的FP8值写回HBM,随后在进行混合精度矩阵乘法(MMA)时再次读取。为了解决这个问题带来的低效,我们建议未来的芯片将FP8类型转换和张量内存加速器(TMA)访问融合为一个操作,从而在将激活值从全局内存传输到共享内存的过程中完成量化,避免频繁的内存读写操作。我们还建议支持线程束级别的类型转换指令以加速这一过程,这进一步促进了层归一化和FP8类型转换的更好融合。另一种方法是采用近内存计算,将计算逻辑放置在HBM附近。在这种情况下,从HBM读取到GPU中的BF16元素可以直接转换为FP8,从而将片外内存访问量减少约 50 % 50\% 50%

转置通用矩阵乘法(GEMM)操作支持。当前架构使得将矩阵转置与GEMM操作融合变得繁琐。在我们的工作流程中,前向传播期间的激活值被量化为 1 × 128 1 \times 128 1×128的FP8矩阵块并存储。在后向传播期间,需要读出矩阵,进行反量化、转置、重新量化为 128 × 1 128 \times 1 128×1的矩阵块,并存储在HBM中。为了减少内存操作,我们建议未来的芯片在MMA操作之前能够直接从共享内存中读取转置后的矩阵,这对于训练和推理所需的精度都适用。结合FP8格式转换和TMA访问的融合,这一增强将大大简化量化工作流程。

4 预训练

4.1 数据构建

与DeepSeek-V2相比,我们通过提高数学和编程样本的比例,同时扩展超出英语和中文的多语言覆盖范围,来优化预训练语料库。此外,我们的数据处理流程经过优化,以减少冗余,同时保持语料库的多样性。受Ding等人(2024)的启发,我们实施了文档打包方法来保证数据的完整性,但在训练过程中没有引入跨样本注意力掩码。最终,DeepSeek-V3的训练语料库在我们的分词器中包含了14.8T的高质量且多样化的token。

在DeepSeekCoder-V2(DeepSeek-AI, 2024a)的训练过程中,我们观察到Fill-in-Middle(FIM)策略在不影响下一个token预测能力的同时,能够使模型根据上下文线索准确预测中间文本。与DeepSeekCoder-V2保持一致,我们也在DeepSeek-V3的预训练中采用了FIM策略。具体来说,我们采用Prefix-Suffix-Middle(PSM)框架来结构化数据,如下所示:

⟨ ∣ fim_begin > f pre < ∣ fim_hole > f suf < ∣ fim_end > f middle < ∣ eos_token ∣ > \langle | \text{fim\_begin}>f_{\text{pre}}<|\text{fim\_hole}>f_{\text{suf}}<|\text{fim\_end}>f_{\text{middle}}<|\text{eos\_token} \mid> fim_begin>fpre<fim_hole>fsuf<fim_end>fmiddle<eos_token∣>

此结构在文档级别应用,作为预打包过程的一部分。FIM策略的应用率为0.1,与PSM框架保持一致。

DeepSeek-V3的分词器采用字节级别的BPE(Shibata等人,1999),并扩展了包含128Ktoken的词汇表。我们的分词器的预分词器和训练数据经过修改,以优化多语言压缩效率。此外,与DeepSeek-V2相比,新的预分词器引入了结合标点符号和换行符的token。然而,当模型处理没有终端换行符的多行提示时,特别是对于少样本评估提示,这种技巧可能会引入token边界偏差(Lundberg,2023)。为了解决这个问题,我们在训练期间随机拆分一定比例的这种组合token,这使模型暴露于更广泛的特殊情况,并减轻了这种偏差。

4.2 超参数

模型超参数。我们将Transformer层的数量设置为61,隐藏维度设置为7168。所有可学习参数均使用标准差为0.006的随机数进行初始化。在多头注意力(MLA)中,我们将注意力头的数量 n h n_{h} nh设置为128,每个头的维度 d h d_{h} dh设置为128。KV压缩维度 d c d_{c} dc设置为512,查询压缩维度 d c ′ d_{c}^{\prime} dc设置为1536。对于解耦的查询和键,我们将每个头的维度 d h R d_{h}^{R} dhR设置为64。我们将除前三层外的所有前馈神经网络(FFN)替换为混合专家(MoE)层。每个MoE层由1个共享专家和256个路由专家组成,其中每个专家的中间隐藏维度为2048。在路由专家中,每个token将激活8个专家,并确保每个token最多被发送到4个节点。多token预测深度 D D D设置为1,即除了精确的下一个token外,每个token还将预测一个额外的token。与DeepSeek-V2一样,DeepSeek-V3还在压缩后的潜在向量之后使用了额外的RMSNorm层,并在宽度瓶颈处乘以额外的缩放因子。在此配置下,DeepSeek-V3包含6710亿个总参数,其中每个token激活370亿个参数。

超参数训练。我们采用AdamW优化器(Loshchilov和Hutter,2017),其超参数设置为 β 1 = 0.9 β_{1}=0.9 β1=0.9 β 2 = 0.95 β_{2}=0.95 β2=0.95,权重衰减 w e i g h t _ d e c a y = 0.1 weight\_decay=0.1 weight_decay=0.1。在预训练期间,我们将最大序列长度设置为4K,并在14.8T个token上预训练DeepSeek-V3。至于学习率调度,我们在前2K步中将其从0线性增加到 2.2 × 1 0 − 4 2.2 \times 10^{-4} 2.2×104。然后,保持 2.2 × 1 0 − 4 2.2 \times 10^{-4} 2.2×104的恒定学习率,直到模型消耗了10T个训练token。随后,我们按照余弦衰减曲线在4.3T个token内将学习率逐渐衰减到 2.2 × 1 0 − 5 2.2 \times 10^{-5} 2.2×105。在最后500B个token的训练过程中,我们在前333B个token中保持 2.2 × 1 0 − 5 2.2 \times 10^{-5} 2.2×105的恒定学习率,并在剩余的167B个token中切换到另一个恒定学习率 7.3 × 1 0 − 6 7.3 \times 10^{-6} 7.3×106。梯度裁剪范数设置为1.0。我们采用批量大小调度策略,在训练前469B个token时,批量大小从3072逐渐增加到15360,然后在剩余的训练中保持15360不变。我们利用管道并行性将模型的不同层部署在不同的GPU上,对于每一层,路由专家将均匀部署在属于8个节点的64个GPU上。对于节点受限路由,每个token最多将被发送到4个节点(即 M = 4 M=4 M=4)。为了实现无辅助损失的负载均衡,我们将前14.3T个token的偏置更新速度 γ γ γ设置为0.001,并将剩余500B个token的偏置更新速度 γ γ γ设置为0.0。对于平衡损失,我们将 α α α设置为0.0001,以避免任何单一序列内出现极端不平衡。对于多任务提示(MTP)损失权重,我们将前10T个token的 λ λ λ设置为0.3,并将剩余4.8T个token的 λ λ λ设置为0.1。

4.3 长上下文扩展

我们采用与DeepSeek-V2(DeepSeek-AI,2024c)类似的方法,使DeepSeek-V3具备长上下文能力。预训练阶段后,我们应用YaRN(Peng等人,2023a)进行上下文扩展,并执行两个额外的训练阶段,每个阶段包含1000步,以逐步将上下文窗口从4K扩展到32K,然后再扩展到128K。YaRN的配置与DeepSeek-V2中使用的配置一致,仅应用于解耦共享键 k t R \mathbf{k}_{t}^{R} ktR。这两个阶段的超参数保持不变,其中缩放比例 s = 40 s=40 s=40 α = 1 \alpha=1 α=1 β = 32 \beta=32 β=32,缩放因子 t = 0.1 ln ⁡ s + 1 \sqrt{t}=0.1 \ln s+1 t =0.1lns+1。在第一阶段,序列长度设置为32K,批量大小为1920。在第二阶段,序列长度增加到128K,批量大小减少到480。两个阶段的学习率均设置为 7.3 × 1 0 − 6 7.3 \times 10^{-6} 7.3×106,与预训练阶段的最终学习率相匹配。
在这里插入图片描述

通过这两个阶段的扩展训练,DeepSeek-V3能够处理长度高达128K的输入,同时保持强大的性能。图8显示,经过监督微调后,DeepSeek-V3在“Needle In A Haystack”(NIAH)测试中取得了显著性能,在长达128K的上下文窗口中表现出一致的稳健性。

4.4 评估

4.4.1 评估基准

DeepSeek-V3的基础模型是在一个包含以英语和中文为主的多语种语料库上进行预训练的,因此我们主要在一系列以英语和中文为主的基准以及一个多语种基准上评估其性能。我们的评估基于集成在我们HAI-LLM框架中的内部评估框架。所考虑的基准被分类并列举如下,其中下划线token的基准为中文基准,双下划线token的基准为多语种基准:

多主题多选题数据集包括MMLU(Hendrycks等人,2020)、MMLURedux(Gema等人,2024)、MMLU-Pro(Wang等人,2024b)、MMMLU(OpenAI,2024b)、C-Eval(Huang等人,2023)和CMMLU(Li等人,2023)。

语言理解和推理数据集包括HellaSwag(Zellers等人,2019)、PIQA(Bisk等人,2020)、ARC(Clark等人,2018)和BigBench Hard(BBH)(Suzgun等人,2022)。

闭卷问答数据集包括TriviaQA(Joshi等人,2017)和NaturalQuestions(Kwiatkowski等人,2019)。

阅读理解数据集包括RACE(Lai等人,2017)、DROP(Dua等人,2019)、C3(Sun等人,2019a)和CMRC(Cui等人,2019)。

指代消解数据集包括CLUEWSC(Xu等人,2020)和WinoGrande(Sakaguchi等人,2019)。

语言建模数据集包括Pile(Gao等人,2020)。

中文理解和文化数据集包括CCPM(Li等人,2021)。

数学数据集包括GSM8K(Cobbe等人,2021)、MATH(Hendrycks等人,2021)、MGSM(Shi等人,2023)和CMath(Wei等人,2023)。

代码数据集包括HumanEval(Chen等人,2021)、LiveCodeBench-Base(0801-1101)(Jain等人,2024)、MBPP(Austin等人,2021)和CRUXEval(Gu等人,2024)。

标准化考试包括AGIEval(Zhong等人,2023)。请注意,AGIEval包括英语和中文子集。

遵循我们之前的工作(DeepSeek-AI,2024b,c),我们对包括HellaSwag、PIQA、WinoGrande、RACE-Middle、RACE-High、MMLU、MMLU-Redux、MMLU-Pro、MMMLU、ARC-Easy、ARC-Challenge、C-Eval、CMMLU、C3和CCPM在内的数据集采用基于困惑度的评估,对TriviaQA、NaturalQuestions、DROP、MATH、GSM8K、MGSM、HumanEval、MBPP、LiveCodeBench-Base、CRUXEval、BBH、AGIEval、CLUEWSC、CMRC和CMath采用基于生成的评估。此外,我们对Pile-test进行基于语言模型的评估,并使用每字节比特数(Bits-Per-Byte,BPB)作为指标,以确保使用不同分词器的模型之间的公平比较。

4.4.2 评估结果

在表3中,我们将DeepSeek-V3的基础模型与最先进的开源基础模型进行了比较,包括DeepSeek-V2-Base(DeepSeek-AI,2024c)(我们之前的版本)、Qwen2.5 72B Base(Qwen,2024b)和LLaMA-3.1 405B Base(AI@Meta,2024b)。我们使用内部评估框架对所有模型进行了评估,并确保它们具有相同的评估设置。请注意,由于过去几个月我们的评估框架发生了变化,DeepSeek-V2-Base的性能与我们之前报告的结果略有差异。总体而言,DeepSeek-V3-Base全面优于DeepSeek-V2-Base和Qwen2.5 72B Base,并且在大多数基准上超过了LLaMA-3.1 405B Base,基本上成为最强的开源模型。
在这里插入图片描述

从更详细的角度来看,我们分别将DeepSeek-V3-Base与其他开源基础模型进行了比较。(1)与DeepSeek-V2-Base相比,由于我们的模型架构有所改进,模型规模和训练token的数量有所增加,数据质量也有所提升,DeepSeek-V3-Base取得了显著更好的性能,符合预期。(2)与最先进的中文开源模型Qwen2.5 72B Base相比,DeepSeek-V3-Base仅使用了一半的激活参数,就展现出了显著优势,特别是在英语、多语言、代码和数学基准测试上。至于中文基准测试,除了中文多学科多选题任务CMMLU外,DeepSeek-V3-Base的表现也优于Qwen2.5 72B。(3)与拥有11倍激活参数的开源最大模型LLaMA-3.1 405B Base相比,DeepSeek-V3-Base在多语言、代码和数学基准测试上也表现出色得多。在英语和中文语言基准测试中,DeepSeek-V3-Base表现出具有竞争力或更好的性能,特别是在BBH、MMLU系列、DROP、C-Eval、CMMLU和CCPM上表现尤为突出。

由于我们高效的架构和全面的工程优化,DeepSeekV3实现了极高的训练效率。在我们的训练框架和基础设施下,训练DeepSeek-V3每万亿个token仅需180K H800 GPU小时,这比训练720亿或4050亿参数的密集模型要便宜得多。

4.5 讨论

4.5.1 多token预测消融研究

在表4中,我们展示了多token预测(MTP)策略的消融结果。具体来说,我们在不同规模的两个基线模型上验证了MTP策略。在小型规模上,我们训练了一个包含157亿个总参数的基线混合专家(MoE)模型,使用了1.33万亿个token。在大型规模上,我们训练了一个包含2287亿个总参数的基线MoE模型,使用了5400亿个token。在它们的基础上,保持训练数据和其他架构不变,我们添加了一个1层深度的MTP模块,并训练了两个采用MTP策略的模型进行比较。请注意,在推理过程中,我们直接丢弃MTP模块,因此比较模型的推理成本完全相同。从表中可以看出,MTP策略在大多数评估基准测试上一致地提高了模型性能。

在这里插入图片描述

4.5.2 无辅助损失平衡策略消融研究

在表5中,我们展示了无辅助损失平衡策略的消融结果。我们在不同规模的两个基线模型上验证了这一策略。在小型规模上,我们训练了一个包含157亿个总参数的基线MoE模型,使用了1.33万亿个token。在大型规模上,我们训练了一个包含2287亿个总参数的基线MoE模型,使用了5780亿个token。这两个基线模型完全使用辅助损失来鼓励负载均衡,并使用带有top-K亲和度归一化的sigmoid门控函数。它们控制辅助损失强度的超参数分别与DeepSeek-V2-Lite和DeepSeek-V2相同。在这两个基线模型的基础上,保持训练数据和其他架构不变,我们移除了所有辅助损失,并引入了无辅助损失平衡策略进行比较。从表中可以看出,无辅助损失策略在大多数评估基准测试上一致地实现了更好的模型性能。

在这里插入图片描述

4.5.3 批量负载均衡与序列负载均衡

无辅助损失平衡与序列辅助损失之间的关键区别在于它们的平衡范围:批量与序列。与序列辅助损失相比,批量平衡施加了一个更灵活的约束,因为它不强制每个序列内的域平衡。这种灵活性使专家能够更好地专注于不同领域。为了验证这一点,我们记录并分析了Pile测试集中不同领域上基于160亿辅助损失的基线模型和160亿无辅助损失模型的专家负载。如图9所示,我们观察到无辅助损失模型如预期所示,表现出了更大的专家专业化模式。
在这里插入图片描述

为了进一步研究这种灵活性与模型性能优势之间的相关性,我们还设计并验证了一种批量辅助损失,它鼓励在每个训练批次上而不是在每个序列上实现负载均衡。实验结果表明,当达到相似的批量负载均衡水平时,批量辅助损失也可以实现与无辅助损失方法相似的模型性能。具体来说,在我们使用10亿参数的MoE模型的实验中,验证损失分别为:2.258(使用序列辅助损失)、2.253(使用无辅助损失方法)和2.253(使用批量辅助损失)。我们在30亿参数的MoE模型上也观察到了类似的结果:使用序列辅助损失的模型验证损失为2.085,而使用无辅助损失方法或批量辅助损失的模型验证损失相同,均为2.080。

此外,尽管批量负载均衡方法表现出一致的性能优势,但它们在效率方面也面临两个潜在挑战:(1)某些序列或小批次内的负载不平衡,(2)推理期间由领域偏移引起的负载不平衡。第一个挑战自然由我们的训练框架解决,该框架使用大规模专家并行和数据并行,从而保证了每个微批次的大小。对于第二个挑战,我们还设计和实现了一个带有冗余专家部署的高效推理框架,如第3.4节所述,以克服这一问题。

5 训练后处理

5.1 监督微调

我们策划指令微调数据集,包含150万个跨多个领域的实例,每个领域采用针对其特定需求定制的不同数据创建方法。

推理数据。对于与推理相关的数据集,包括专注于数学、代码竞赛问题和逻辑谜题的数据集,我们利用内部DeepSeek-R1模型生成数据。具体而言,虽然R1生成的数据表现出很高的准确性,但存在过度思考、格式不佳和长度过长等问题。我们的目标是平衡R1生成推理数据的高准确性和常规格式推理数据的清晰度和简洁性。
为了建立我们的方法,我们首先使用结合监督微调(Supervised Fine-Tuning, S F T SFT SFT)和强化学习(Reinforcement Learning, R L RL RL)的训练管道,开发针对特定领域(如代码、数学或一般推理)的专家模型。该专家模型用作最终模型的数据生成器。训练过程涉及为每个实例生成两种不同类型的 S F T SFT SFT样本:第一种以<问题,原始回答>的格式将问题与原始回答相结合,第二种则在<系统提示,问题,R1回答>的格式中结合系统提示、问题和R1回答。

系统提示经过精心设计,包含指导模型生成包含反思和验证机制的回答的指令。在 R L RL RL阶段,模型利用高温采样生成融合R1生成数据和原始数据模式的回答,即使在缺少显式系统提示的情况下也是如此。经过数百个 R L RL RL步骤后,中间 R L RL RL模型学会融合R1模式,从而在战略上提高整体性能。

完成 R L RL RL训练阶段后,我们实施拒绝采样,为最终模型策划高质量的 S F T SFT SFT数据,其中专家模型用作数据生成源。此方法确保最终训练数据保留DeepSeek-R1的优势,同时生成简洁有效的回答。

非推理数据。对于非推理数据,如创意写作、角色扮演和简单问答,我们使用DeepSeek-V2.5生成回答,并聘请人工标注者验证数据的准确性和正确性。

S F T SFT SFT设置。我们使用 S F T SFT SFT数据集对DeepSeek-V3-Base进行两个周期的监督微调,采用从 5 × 1 0 − 6 5 \times 10^{-6} 5×106 开始并逐渐降低到 1 × 1 0 − 6 1 \times 10^{-6} 1×106 的余弦衰减学习率调度。在训练期间,每个单序列由多个样本打包而成。然而,我们采用样本掩蔽策略,以确保这些示例保持独立且相互不可见。

5.2 强化学习

5.2.1 奖励模型

在我们的强化学习(RL)过程中,我们采用了基于规则的奖励模型(RM)和基于模型的RM。

基于规则的RM。对于可以使用特定规则验证的问题,我们采用基于规则的奖励系统来确定反馈。例如,某些数学问题有确定性的结果,我们要求模型在指定的格式(例如在一个框内)内提供最终答案,从而允许我们应用规则来验证正确性。同样,对于LeetCode问题,我们可以利用编译器根据测试用例生成反馈。通过尽可能利用基于规则的验证,我们确保了更高的可靠性,因为这种方法不易被操纵或利用。

基于模型的RM。对于具有自由形式真实答案的问题,我们依赖奖励模型来确定响应是否与预期的真实答案匹配。相反,对于没有确定性真实答案的问题,如涉及创造性写作的问题,奖励模型的任务是根据问题和相应答案作为输入提供反馈。奖励模型是从DeepSeek-V3 SFT检查点训练得到的。为了提高其可靠性,我们构建了偏好数据,它不仅提供最终奖励,还包括导致奖励的思维链。这种方法有助于缓解特定任务中奖励被篡改的风险。

5.2.2 组相对策略优化

与DeepSeek-V2(DeepSeek-AI,2024c)类似,我们采用了组相对策略优化(GRPO)(Shao等,2024),它省去了通常与政策模型大小相同的评论家模型,而是从组分数中估计基线。具体而言,对于每个问题 q q q,GRPO从旧策略模型 π θ old  \pi_{\theta_{\text {old }}} πθold 中采样一组输出 { o 1 , o 2 , ⋯   , o G } \left\{o_{1}, o_{2}, \cdots, o_{G}\right\} {o1,o2,,oG},然后通过最大化以下目标来优化策略模型 π θ \pi_{\theta} πθ

J G R P O ( θ ) = E [ q ∼ P ( Q ) , { o i } i = 1 G ∼ π θ o l d ( O ∣ q ) ] 1 G ∑ i = 1 G ( min ⁡ ( π θ ( o i ∣ q ) π θ o l d ( o i ∣ q ) A i , clip ⁡ ( π θ ( o i ∣ q ) π θ o l d ( o i ∣ q ) , 1 − ε , 1 + ε ) A i ) − β D K L ( π θ ∣ ∣ π r e f ) ) , D K L ( π θ ∣ ∣ π r e f ) = π r e f ( o i ∣ q ) π θ ( o i ∣ q ) − log ⁡ π r e f ( o i ∣ q ) π θ ( o i ∣ q ) − 1 , \begin{array}{c}\mathcal{J}_{G R P O}(\theta)=\mathbb{E}\left[q \sim P(Q),\left\{o_{i}\right\}_{i=1}^{G} \sim \pi_{\theta_{o l d}}(O \mid q)\right] \\ \frac{1}{G} \sum_{i=1}^{G}\left(\min \left(\frac{\pi_{\theta}\left(o_{i} \mid q\right)}{\pi_{\theta_{o l d}}\left(o_{i} \mid q\right)} A_{i}, \operatorname{clip}\left(\frac{\pi_{\theta}\left(o_{i} \mid q\right)}{\pi_{\theta_{o l d}}\left(o_{i} \mid q\right)}, 1-\varepsilon, 1+\varepsilon\right) A_{i}\right)-\beta \mathbb{D}_{K L}\left(\pi_{\theta}|| \pi_{r e f}\right)\right), \\ \mathbb{D}_{K L}\left(\pi_{\theta}|| \pi_{r e f}\right)=\frac{\pi_{r e f}\left(o_{i} \mid q\right)}{\pi_{\theta}\left(o_{i} \mid q\right)}-\log \frac{\pi_{r e f}\left(o_{i} \mid q\right)}{\pi_{\theta}\left(o_{i} \mid q\right)}-1,\end{array} JGRPO(θ)=E[qP(Q),{oi}i=1Gπθold(Oq)]G1i=1G(min(πθold(oiq)πθ(oiq)Ai,clip(πθold(oiq)πθ(oiq),1ε,1+ε)Ai)βDKL(πθ∣∣πref)),DKL(πθ∣∣πref)=πθ(oiq)πref(oiq)logπθ(oiq)πref(oiq)1,

其中, ε \varepsilon ε β \beta β是超参数; π r e f \pi_{r e f} πref是参考模型; A i A_{i} Ai是优势,由每组输出对应的奖励 { r 1 , r 2 , … , r G } \left\{r_{1}, r_{2}, \ldots, r_{G}\right\} {r1,r2,,rG}推导得出:

A i = r i − mean ⁡ ( { r 1 , r 2 , ⋯   , r G } ) std ⁡ ( { r 1 , r 2 , ⋯   , r G } ) A_{i}=\frac{r_{i}-\operatorname{mean}\left(\left\{r_{1}, r_{2}, \cdots, r_{G}\right\}\right)}{\operatorname{std}\left(\left\{r_{1}, r_{2}, \cdots, r_{G}\right\}\right)} Ai=std({r1,r2,,rG})rimean({r1,r2,,rG})

在RL过程中,我们融入了来自不同领域的提示,如编码、数学、写作、角色扮演和问答。这种方法不仅使模型与人类偏好更加一致,还提高了基准测试的性能,尤其是在可用的SFT数据有限的情况下。

5.3 评估

5.3.1 评估设置

评估基准。除了我们用于基础模型测试的基准之外,我们还进一步在IFEval(Zhou等,2023)、FRAMES(Krishna等,2024)、LongBench v2(Bai等,2024)、GPQA(Rein等,2023)、SimpleQA(OpenAI,2024c)、CSimpleQA(He等,2024)、SWE-Bench Verified(OpenAI,2024d)、Aider{ }^{1}、LiveCodeBench(Jain等,2024)(2024年8月至11月的问题)、Codeforces{ }^{2}、中国高中数学奥林匹克竞赛(CNMO 2024){ }^{3}和美国数学邀请赛2024(AIME 2024)(MAA,2024)上对指令模型进行了评估。

对比基线。我们对我们的聊天模型与几个强大的基线进行了全面评估,包括DeepSeek-V2-0506、DeepSeek-V2.5-0905、Qwen2.5 72B Instruct、LLaMA-3.1 405B Instruct、Claude-Sonnet-3.5-1022和GPT-4o-0513。对于DeepSeek-V2模型系列,我们选择了最具代表性的变体进行比较。对于闭源模型,评估是通过它们各自的API进行的。

详细评估配置。对于包括MMLU、DROP、GPQA和SimpleQA在内的标准基准,我们采用了simple-evals框架中的评估提示。我们在零样本设置下对MMLU-Redux采用了Zero-Eval提示格式(Lin,2024)。对于其他数据集,我们遵循其原始评估协议,并使用数据集创建者提供的默认提示。对于代码和数学基准,HumanEval-Mul数据集总共包括8种主流编程语言(Python、Java、Cpp、C#、JavaScript、TypeScript、PHP和Bash)。我们使用思维链(Chain-of-Thought, CoT)和非思维链方法来评估LiveCodeBench(数据收集自2024年8月至11月)上的模型性能。Codeforces数据集是通过竞争者的百分比来衡量的。SWE-Bench verified是使用无代理框架(Xia等,2024)进行评估的。我们使用“diff”格式来评估与Aider相关的基准。对于数学评估,AIME和CNMO 2024是在0.7的温度下进行评估的,结果是在16次运行中取平均值,而MATH-500则采用贪婪解码。我们允许所有模型在每个基准上最多输出8192个token。

5.3.2 标准评估

表6展示了评估结果,表明DeepSeek-V3是表现最佳的开源模型。此外,它与前沿的闭源模型(如GPT-4o和Claude-3.5-Sonnet)相比也颇具竞争力。
在这里插入图片描述

英文基准测试。MMLU是一个广受认可的基准测试,旨在评估大型语言模型在不同知识领域和任务中的性能。DeepSeek-V3表现出具有竞争力的性能,与顶级模型(如LLaMA-3.1-405B、GPT-4o和Claude-Sonnet 3.5)不相上下,同时显著优于Qwen 2.5 72B。此外,在更具挑战性的教育知识基准测试MMLU-Pro中,DeepSeek-V3表现优异,仅次于Claude-Sonnet 3.5。在MMLU的改进版MMLU-Redux(标签已更正)中,DeepSeek-V3超越了同类模型。此外,在博士级评估测试平台GPQA-Diamond上,DeepSeek-V3取得了显著成绩,仅次于Claude 3.5 Sonnet,并大幅领先于其他所有竞争对手。

在DROP、LongBench v2和FRAMES等长文本理解基准测试中,DeepSeek-V3继续证明了其作为顶级模型的地位。在DROP的3次射击设置中,它获得了令人印象深刻的91.6 F1分数,优于该类别中的所有其他模型。在FRAMES基准测试中(要求回答超过10万个token的上下文的问题),DeepSeekV3紧随GPT-4o之后,同时大幅领先于所有其他模型。这证明了DeepSeek-V3在处理极长上下文任务方面的强大能力。DeepSeek-V3在LongBench v2(DeepSeek V3发布前几周发布的数据集)上的同类最佳表现进一步验证了其处理长上下文的能力。在事实知识基准测试SimpleQA中,DeepSeek-V3落后于GPT-4o和Claude-Sonnet,这主要是由于其设计重点和资源配置。DeepSeek-V3分配了更多的训练token来学习中文知识,从而在C-SimpleQA上取得了卓越表现。在指令遵循基准测试中,DeepSeek-V3显著优于其前身DeepSeek-V2系列,凸显了其理解和遵循用户定义格式约束的能力有所提高。

代码和数学基准测试。编码对于大型语言模型来说是一项具有挑战性和实用性的任务,包括工程任务(如SWE-Bench-Verified和Aider)以及算法任务(如HumanEval和LiveCodeBench)。在工程任务中,DeepSeek-V3落后于Claude-Sonnet-3.5-1022,但显著优于开源模型。预计开源的DeepSeek-V3将推动与编码相关的工程任务的发展。通过提供其强大的功能,DeepSeek-V3可以在软件工程和算法开发等领域推动创新和改进,使开发人员和研究人员能够突破开源模型在编码任务中所能达到的界限。在算法任务中,DeepSeek-V3表现出卓越的性能,在HumanEval-Mul和LiveCodeBench等基准测试中优于所有基线。这一成功归功于其先进的知识蒸馏技术,该技术有效增强了其在算法任务中的代码生成和问题解决能力。

在数学基准测试中,DeepSeek-V3表现出色,显著超越基线,为非o1类模型树立了新的最先进水平。具体而言,在AIME、MATH-500和CNMO 2024上,DeepSeek-V3在绝对分数上比排名第二的模型Qwen 2.5 72B高出约10%,对于如此具有挑战性的基准测试来说,这是一个相当大的差距。这一卓越能力凸显了DeepSeek-R1蒸馏技术的有效性,该技术已被证明对非o1类模型非常有益。

中文基准测试。Qwen和DeepSeek是两个支持中文和英文的代表性模型系列。在事实基准测试中文SimpleQA中,尽管Qwen2.5是在包含18Ttoken(比DeepSeek-V3预训练的14.8Ttoken多20%)的更大语料库上训练的,但DeepSeekV3仍以16.4分的优势超越了Qwen2.5-72B。

在C-Eval(中文教育知识评估的代表性基准测试)和CLUEWSC(中文Winograd Schema Challenge)中,DeepSeek-V3和Qwen2.5-72B表现出相似的性能水平,这表明两个模型都针对具有挑战性的中文推理和教育任务进行了很好的优化。

5.3.3 开放式评估

除了标准基准测试外,我们还使用大型语言模型作为评判者,对模型进行了开放式生成任务的评估,结果如表7所示。具体而言,我们遵循AlpacaEval 2.0(Dubois等,2024)和Arena-Hard(Li等,2024a)的原始配置,利用GPT-4-Turbo-1106作为成对比较的评判者。在Arena-Hard上,DeepSeek-V3以超过86%的胜率击败了基线GPT-4-0314,与顶级模型(如Claude-Sonnet-3.5-1022)不相上下。这凸显了DeepSeek-V3的强大能力,尤其是在处理复杂提示(包括编码和调试任务)方面。此外,DeepSeek-V3作为首个在Arena-Hard基准测试中得分超过85%的开源模型,取得了突破性成就。这一成就显著缩小了开源模型和闭源模型之间的性能差距,为开源模型在具有挑战性的领域所能取得的成就树立了新标准。
在这里插入图片描述

同样,DeepSeek-V3在AlpacaEval 2.0上表现出色,优于闭源和开源模型。这证明了其在写作任务和处理直接问答场景方面的卓越能力。值得注意的是,它比DeepSeek-V2.5-0905高出20%,这凸显了其在处理简单任务方面的显著改进,并展示了其进步的有效性。

5.3.4 DeepSeek-V3作为生成式奖励模型

我们将DeepSeek-V3的判断能力与最先进的模型GPT-4o和Claude-3.5进行了比较。表8展示了这些模型在RewardBench(Lambert等,2024)上的表现。DeepSeek-V3的性能与GPT-4o-0806和Claude-3.5-Sonnet-1022的最佳版本相当,甚至超越了其他版本。此外,DeepSeek-V3的判断能力还可以通过投票技术进一步增强。因此,我们采用DeepSeekV3并结合投票技术,为开放式问题提供自我反馈,从而提高对齐过程的有效性和鲁棒性。
在这里插入图片描述

5.4 讨论

5.4.1 从DeepSeek-R1进行知识蒸馏

我们基于DeepSeek-V2.5,评估了从DeepSeek-R1进行知识蒸馏的贡献。基线模型是在短CoT(链式思维)数据上训练的,而对比模型则使用了上述专家检查点生成的数据。

表9展示了蒸馏数据的有效性,显示在LiveCodeBench和MATH-500基准测试中均有显著提升。我们的实验揭示了一个有趣的权衡:蒸馏带来了更好的性能,但同时也大幅增加了平均响应长度。为了在模型准确性和计算效率之间保持平衡,我们在蒸馏过程中为DeepSeek-V3精心选择了最优设置。

我们的研究表明,从推理模型中进行知识蒸馏是训练后优化的一个有前途的方向。虽然我们目前的工作主要集中在从数学和编码领域蒸馏数据,但这种方法显示出在各种任务领域中更广泛应用的潜力。在这些特定领域展现的有效性表明,长CoT蒸馏对于增强其他需要复杂推理的认知任务的模型性能可能是有价值的。未来研究的一个重要方向是进一步探索不同领域中的这种方法。

5.4.2 自我奖励

奖励在强化学习(RL)中起着至关重要的作用,引导优化过程。在一些通过外部工具进行验证简单直接的领域,如某些编码或数学场景,强化学习表现出卓越的有效性。然而,在更一般的场景中,通过硬编码构建反馈机制是不切实际的。在开发DeepSeek-V3时,对于这些更广泛的上下文,我们采用了构成式AI方法(Bai等,2022),利用DeepSeek-V3本身的投票评估结果作为反馈来源。这种方法已经产生了显著的对齐效果,显著提高了DeepSeek-V3在主观评价中的性能。通过整合额外的构成式输入,DeepSeek-V3可以朝着构成式方向进行优化。我们认为,这种将补充信息与大型语言模型(LLM)相结合作为反馈来源的范式至关重要。LLM作为一种多功能处理器,能够将来自不同场景的非结构化信息转换为奖励,最终促进LLM的自我改进。除了自我奖励外,我们还致力于发现其他通用且可扩展的奖励方法,以持续提升一般场景中的模型能力。

5.4.3 多token预测评估

DeepSeek-V3不是仅预测下一个单个token,而是通过多token预测(MTP)技术预测接下来的2个token。结合推测解码框架(Leviathan等,2023;Xia等,2023),它可以显著加快模型的解码速度。关于额外预测token的接受率,一个自然产生的问题是:根据我们的评估,在不同生成主题下,第二个token预测的接受率在85%到90%之间,表现出一致的可靠性。这一高接受率使DeepSeek-V3能够实现解码速度的显著提升,达到每秒1.8个token(TPS)。

6 结论、局限性与未来方向

在本文中,我们介绍了DeepSeek-V3,这是一个拥有6710亿个总参数和370亿个激活参数的大型混合专家(Mixture of Experts, MoE)语言模型,该模型在14.8万亿个token上进行了训练。除了多语言适配器(MLA)和DeepSeekMoE架构外,它还开创了一种无辅助损失的负载均衡策略,并设定了一个多token预测训练目标,以获得更强的性能。由于FP8训练和精细的工程优化支持,DeepSeek-V3的训练具有成本效益。训练后的蒸馏也成功地从DeepSeek-R1系列模型中提取了推理能力。综合评估表明,DeepSeek-V3已成为目前可用的最强开源模型,其性能可与GPT-4o和Claude-3.5-Sonnet等领先的闭源模型相媲美。尽管性能强大,但它仍保持着经济高效的训练成本。包括预训练、上下文长度扩展和训练后处理在内的完整训练,仅需 2.788 M H 800 G P U 2.788 \mathrm{M} \mathrm{H800} \mathrm{GPU} 2.788MH800GPU小时。

在承认其强大性能和成本效益的同时,我们也认识到DeepSeek-V3存在一些局限性,尤其是在部署方面。首先,为确保高效推理,DeepSeek-V3推荐的部署单元相对较大,这可能给小团队带来负担。其次,尽管我们的DeepSeekV3部署策略已经实现了比DeepSeek-V2快两倍以上的端到端生成速度,但仍有进一步提升的潜力。幸运的是,随着更先进硬件的发展,这些局限性有望得到自然解决。

DeepSeek始终坚持开源模型的长期主义路线,旨在稳步接近通用人工智能(Artificial General Intelligence, AGI)的最终目标。在未来,我们计划在以下方向进行战略性投资研究:

  • 我们将持续研究和改进模型架构,旨在进一步提高训练和推理效率,努力实现对无限上下文长度的有效支持。此外,我们将尝试突破Transformer架构的局限性,从而拓展其建模能力的边界。
  • 我们将不断迭代训练数据的数量和质量,并探索纳入额外的训练信号源,旨在推动数据在更全面的维度上进行扩展。
  • 我们将持续探索和迭代模型的深度思考能力,旨在通过扩展推理的长度和深度来提升其智能和问题解决能力。
  • 我们将探索更全面、多维度的模型评估方法,以防止在研究过程中优化固定基准集的倾向,这可能会产生对模型能力的误导性印象,并影响我们的基础评估。
;