大语言模型---通过数值梯度的方式计算损失值L对模型权重矩阵W的梯度；数值梯度的公式；数值梯度计算过程

文章目录

概要
1. 数值梯度的公式
2. 数值梯度计算过程
3. 数值梯度的特点

概要

前文已经简单介绍梯度，本文主要介绍大语言模型中使用数值梯度的方法实现 损失值 $L$ 对模型权重矩阵的梯度计算，而不是传统的链式法则进行梯度计算。如果想要理解整体计算方式，先明白损失值 $L$ 的计算方式，通过公式了解其和权重矩阵 $W_V$ 的关系。然后再理解损失值 $L$ 对权重矩阵 $W_V$ 的梯度计算。

1. 数值梯度的公式

数值梯度通过有限差分法近似计算梯度，对权重矩阵 $W_V$ 中每个元素的梯度 $\frac{\partial L}{\partial W_{V_{ij}}}$ ：
$\nabla L_{W_{V_{ij}}} = \frac{L_{plus}-L_{current}}{h}$

其中，每个参数的含义在下文中有讲解。

2. 数值梯度计算过程

(1) 初始化

给定权重矩阵 $W_V \in \mathbb{F}^{m \times n}$ ，与 $W_V$ 大小相同的梯度矩阵 $\nabla L_{W_V} = \text{zeros}(m, n)$ 。
确定增量 $h$ 的值（如 $h=10^{−5}$ ）。

(2) 遍历权重矩阵的每个元素
对于 $W_V$ 中的每个元素 $W_{V_{ij}}$ ：

创建一个单位矩阵 $E_{ij}$ ，大小与 $W_V$ 相同，且 $E_{ij}=1$ 。
计算损失值：

$L_{plus}=L(W_v+h*E_{ij})$ ：
- 在 $W_V$ 的第 $(i, j)$ 元素增加一个微小值 $h$ ，得到新的权重矩阵，然后计算损失值 $L_{plus}$ .
$L_{current}=L(W_v)$ :
- 使用当前的权重矩阵 $W_V$ 计算损失值 $L_{current}$ 。

(3) 梯度估算
通过有限差分公式，计算第 $(i, j)$ 元素的梯度：
$\nabla L_{W_{V_{ij}}} = \frac{L_{plus}-L_{current}}{h}$
这个公式的含义是：通过观察 $W_{V_{ij}}$ 增加 $h$ 后损失函数的变化，我们可以估算出损失函数对该参数的敏感程度（梯度）。

3. 数值梯度的特点

优点：

简单直观：无需解析推导梯度公式，直接利用损失函数计算。
适合验证解析梯度：可以作为解析梯度的参考标准，用于检测实现是否正确。

缺点：

计算效率低：

对于权重矩阵 $W_V \in \mathbb{F}^{m \times n}$ ，需要计算 $m \times n$ 次损失。
如果网络规模较大，数值梯度的计算会非常耗时。

数值误差：

梯度近似的精度取决于 $h$ 的选择。
$h$ 太大会导致误差较大， $h$ 太小可能引入浮点数精度问题。