“vanilla”是什么意思？

~~香草社~~
含义是原装的，不是变体，可以理解为原装T-34，不是后来魔改的版本；
下面以 gradiant descent为例来翻译翻译什么tmd叫tmd vanilla；

Vanilla Gradient Descent

$\begin{equation} \hat{y} = \mathbf{X} \mathbf{W} + b \end{equation}$

$\begin{equation} J(\mathbf{W}, b) = \frac{1}{m} \sum_{i=1}^{m} (y^{(i)} - \hat{y}^{(i)})^2 \end{equation}$

$\begin{equation} \frac{\partial J(\mathbf{W}, b)}{\partial \mathbf{W}} = -\frac{2}{m} \mathbf{X}^T (\mathbf{y} - \hat{y}) \end{equation}$

$\begin{equation} \frac{\partial J(\mathbf{W}, b)}{\partial b} = -\frac{2}{m} \sum_{i=1}^{m} (y^{(i)} - \hat{y}^{(i)}) \end{equation}$

$\begin{equation} \mathbf{W} := \mathbf{W} - \alpha \frac{\partial J(\mathbf{W}, b)}{\partial \mathbf{W}} \end{equation}$

$\begin{equation} b := b - \alpha \frac{\partial J(\mathbf{W}, b)}{\partial b} \end{equation}$

$\begin{equation} \hat{y} = \mathbf{X} \mathbf{W} + b \end{equation}$

$\begin{equation} J(\mathbf{W}, b) = \frac{1}{m} \sum_{i=1}^{m} (y^{(i)} - \hat{y}^{(i)})^2 \end{equation}$

$\begin{equation} \frac{\partial J(\mathbf{W}, b)}{\partial \mathbf{W}} = -\frac{2}{m} \mathbf{X}^T (\mathbf{y} - \hat{y}) \end{equation}$

$\begin{equation} \frac{\partial J(\mathbf{W}, b)}{\partial b} = -\frac{2}{m} \sum_{i=1}^{m} (y^{(i)} - \hat{y}^{(i)}) \end{equation}$

$\begin{equation} v_{\mathbf{W}} = \beta v_{\mathbf{W}} + (1 - \beta) \frac{\partial J(\mathbf{W}, b)}{\partial \mathbf{W}} \end{equation}$

$\begin{equation} v_{b} = \beta v_{b} + (1 - \beta) \frac{\partial J(\mathbf{W}, b)}{\partial b} \end{equation}$

$\begin{equation} \mathbf{W} := \mathbf{W} - \alpha v_{\mathbf{W}} \end{equation}$

$\begin{equation} b := b - \alpha v_{b} \end{equation}$

总之，vanilla表示是初始的样子，可以理解为baseline，后面一堆魔改的方法喜欢和它做比较；