【机器学习基础】概率生成式模型

本系列为《模式识别与机器学习》的读书笔记。

一，概率生成式模型

⾸先考虑⼆分类的情形。类别 $\mathcal{C}_1$ 的后验概率可以写成

$\begin{aligned}p(\mathcal{C}_1|\boldsymbol{x})&=\frac{p(\boldsymbol{x}|\mathcal{C}_1)p(\mathcal{C}_1)}{p(\boldsymbol{x}|\mathcal{C}_1)p(\mathcal{C}_1)+p(\boldsymbol{x}|\mathcal{C}_2)p(\mathcal{C}_2)}\\&=\frac{1}{1+\exp(-a)}=\sigma(a)\end{aligned}\tag{4.36}$
其中，
$a=\ln\frac{p(\boldsymbol{x}|\mathcal{C}_1)p(\mathcal{C}_1)}{p(\boldsymbol{x}|\mathcal{C}_2)p(\mathcal{C}_2)}$
$\sigma(a)$ 称之为 logistic sigmoid函数 。

如图4.12，logistic sigmoid函数 $\sigma(a)$ 的图像，⽤红⾊表⽰，同时给出的是放缩后的逆probit函数 $\Phi(\lambda a)$ 的图像，其中 $\lambda^2=\frac{\pi}{8}$ ，⽤蓝⾊曲线表⽰。
logistic sigmoid函数
logistic sigmoid函数 在许多分类算法中都有着重要的作⽤，满⾜下⾯的对称性
$\sigma(-a)=1-\sigma(a)\tag{4.37}$
logistic sigmoid的反函数为
$a=\ln\left(\frac{\sigma}{1-\sigma}\right)\tag{4.38}$
被称为 logit函数。它表⽰两类的概率⽐值的对数 $\ln[\frac{p(\mathcal{C}_1|\boldsymbol{x})}{p(\mathcal{C}_2|\boldsymbol{x})}]$ ，也被称为 log odds函数 。

对于 $K > 2$ 个类别的情形，有
$\begin{aligned}p(\mathcal{C}_k|\boldsymbol{x})&=\frac{p(\boldsymbol{x}|\mathcal{C}_k)p(\mathcal{C}_k)}{\sum_{j}p(\boldsymbol{x}|\mathcal{C}_j)p(\mathcal{C}_j)}\\&=\frac{\exp(a_k)}{\sum_{j}\exp(a_j)}\end{aligned}\tag{4.39}$
被称为归⼀化指数（normalized exponential），也叫 softmax函数 ，可以被当做logistic sigmoid函数对于多类情况的推⼴。其中， $a_k$ 被定义为
$a_k=\ln p(\boldsymbol{x}|\mathcal{C}_k)p(\mathcal{C}_k)$
如果对于所有的 $j\ne k$ 都有 $a_k \gg a_j$ ，那么 $p(\mathcal{C}_k|\boldsymbol{x})\simeq 1$ 且 $p(\mathcal{C}_j|\boldsymbol{x}) \simeq 0$ 。

1，连续输⼊

假设类条件概率密度是⾼斯分布，然后求解后验概率的形式。假定所有的类别的协⽅差矩阵相同，这样类别 $\mathcal{C}_k$ 的类条件概率为

$p(\boldsymbol{x}|\mathcal{C}_k)=\frac{1}{(2\pi)^{\frac{D}{2}}}\frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu}_k)^{T}\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}_k)\right\}\tag{4.40}$

⾸先考虑两类的情形。根据公式(4.36)，有

$p(\mathcal{C}_1|\boldsymbol{x})=\sigma(\boldsymbol{w}^{T}\boldsymbol{x}+w_0)\tag{4.41}$

其中，
$\boldsymbol{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_1-\boldsymbol{\mu}_2)\\ w_0=-\frac{1}{2}\boldsymbol{\mu}_{1}^{T}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_{1}+\frac{1}{2}\boldsymbol{\mu}_{2}^{T}\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_{2}+\ln\frac{p(\mathcal{C}_1)}{p(\mathcal{C}_2)}$