Multi-Head Latent Attention: Boosting Inference Efficiency

Introduction
Method
- Low-Rank Key-Value Joint Compression
- Decoupled Rotary Position Embedding
References

Introduction

作者提出 Multi-head Latent Attention (MLA)，通过将 KV 压缩为 Compressed Latent KV，在减小 KV cache 的同时保持模型精度

Method

Low-Rank Key-Value Joint Compression

MLA 将 KV vectors $\mathbf{k}_{t},\mathbf{v}_{t}\in\mathbb{R}^{d_{h}n_{h}}$ 压缩为 latent vector $\mathbf{c}_{t}^{KV}\in\mathbb{R}^{d_c}$ ，从而在推理时仅需保存 latent vector $\mathbf{c}_{t}^{KV}$ 而无需保存 KV cache ( $d_c\ll d_hn_h$ ， $d_h$ 为 head dim， $n_h$ 为 #heads)
$\begin{gathered} \mathbf{c}_{t}^{KV} =W^{DKV}\mathbf{h}_{t} \\ \mathbf{k}_{t}^{C} =W^{UK}\mathbf{c}_{t}^{KV} \\ \mathbf{v}_{t}^{C} =W^{UV}\mathbf{c}_{t}^{KV} \end{gathered}$ 其中， $W^{DKV}\in\R^{d_c\times d}$ ， $W^{UK},W^{UV}\in\R^{d_hn_h\times d_c}$ . 这样每个 token 对应的 KV cache 数据量由原来的 $2n_hd_hl$ 降低到了 $d_cl$ ， $l$ 为 Transformer 层数，这样一来，在设计 LLM 架构参数时甚至可以把 $d_h$ 设置得比 $d/h_n$ 更大，这样不仅不会增加 KV cache，还可以进一步提升模型能力
MLA 在推理时无需用 $W^{UK},W^{UV}$ 重新计算出 $\mathbf k_t^C,\mathbf v_t^C$ ，而是将 $W^{UK},W^{UV}$ 分别融到模型权重 $W^Q,W^O$ 里，不会带来额外的推理开销
$\mathbf q_t^T\mathbf k^C_t=(W^Q_{(h)}\mathbf h_t)^T(W^{UK}_{(h)}\mathbf c_t^{KV})=\left(\left(W^{UK}_{(h)}\right)^TW^Q_{(h)}h_t\right)^T\mathbf c_t^{KV}$ $\left(\sum_{j=1}^t\mathbf p_j\mathbf v_j^C\right)^TW^O_{(h)}=\left(\sum_{j=1}^t\mathbf p_jW^{UV}_{(h)}\mathbf c_j^{KV}\right)^TW^O_{(h)}=\left(\sum_{j=1}^t\mathbf p_j\mathbf c_j^{KV}\right)^T\left(W^{UV}_{(h)}\right)^TW^O_{(h)}$ 其中， $W^Q_{(h)},W^O_{(h)}\in\R^{d_h\times d_hn_h}$ ， $W^{UK}_{(h)},W^{UV}_{(h)}\in\R^{d_h\times d_c}$ 为 head $h$ 对应的权重参数

Decoupled Rotary Position Embedding

上述对 KV cache 的低秩压缩无法直接与 RoPE 兼容，因为 RoPE 要给 $\mathbf q,\mathbf k$ 做内积之前进行旋转，这导致 $W^{UK}$ 无法融到 $W^Q$ 里，每次推理时都需要重新从 $\mathbf c^{KV}$ 计算 $\mathbf k$ ，从而增加大量推理开销。为此，MLA 采用 decoupled RoPE，给每个 attn 层额外增加 multi-head queries $\mathbf{q}_{t,i}^{R}\in\mathbb{R}^{d_{h}^{R}}$ 和共享的 key $\mathbf{k}_{t}^{R}\in\mathbb{R}^{d_{h}^{R}}$ 用于存储 RoPE 位置信息，这样只需要同时存储 $\mathbf c^{KV}$ 和 $\mathbf{k}^{R}$ 即可，MLA 所需的 KV cache 数据量增加为 $d_c+d_h^R)l$
$\begin{aligned} [\mathbf{q}_{t,1}^{R};\mathbf{q}_{t,2}^{R};...;\mathbf{q}_{t,n_{h}}^{R}]=\mathbf{q}_{t}^{R}& =\mathrm{RoPE}(W^{QR}\mathbf{h}_{t}), \\ \mathbf{k}_{t}^{R}& =\mathrm{RoPE}(W^{KR}\mathbf{h}_{t}), \\ \mathbf{q}_{t,i}& =[\mathbf{q}_{t,i}^{C};\mathbf{q}_{t,i}^{R}], \\ \mathbf{k}_{t,i}& =[\mathbf{k}_{t,i}^{C};\mathbf{k}_{t}^{R}], \\ \mathbf{o}_{t,i}& =\sum_{j=1}^{t}\mathrm{Softmax}_{j}(\frac{\mathbf{q}_{t,i}^{T}\mathbf{k}_{j,i}}{\sqrt{d_{h}+d_{h}^{R}}})\mathbf{v}_{j,i}^{C}, \\ \mathbf{u}_{t}& =W^{O}[\mathbf{o}_{t,1};\mathbf{o}_{t,2};...;\mathbf{o}_{t,n_{h}}], \end{aligned}$ 其中， $W^{QR}\in\mathbb{R}^{d_{h}^{R}n_{h}\times d},W^{KR}\in\mathbb{R}^{d_{h}^{R}\times d}$

References

DeepSeek-AI, et al. “DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model.” arXiv preprint arXiv:2405.04434 (2024).
苏剑林. (May. 13, 2024). 《缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA 》[Blog post]. Retrieved from https://kexue.fm/archives/10091

Multi-Head Latent Attention: Boosting Inference Efficiency

Contents

Introduction

Method

Low-Rank Key-Value Joint Compression

Decoupled Rotary Position Embedding

References

悦读