内容补充页(相关公式解释)

from 学习日记_20241117_聚类方法（高斯混合模型）

在高斯混合模型 (GMM) 中，公式 $\pi_k$ 描述了选择某个高斯成分 $k$ 的概率，其中 $Z$ 是一个潜在变量（latent variable），表示数据点所属的成分。

潜在变量 $Z$ ：
- $Z$ 是一个离散随机变量，它的取值范围为 $\{1, 2, \ldots, K\}$ ，其中 $K$ 是模型中高斯成分的数量。每个 $k$ 对应一个高斯分布。
权重 $\pi_k$ ：
- $\pi_k$ 是与成分 $k$ 相关的权重，表示在所有成分中选择成分 $k$ 的概率。它满足以下条件：
  - $\pi_k \geq 0$ （非负性）
  - $\sum_{k=1}^{K} \pi_k = 1$ （归一化条件）
模型解释：
- 这个公式表明，在生成数据的过程中，根据权重 $\pi_k$ ，我们会选择其中一个成分 $k$ 。这个选择是随机的，但在长期来看，每个成分 $k$ 被选择的概率正好等于其权重 $\pi_k$ 。

在 GMM 的生成过程中，首先选择一个成分 $ Z $，然后在选择的成分下从对应的高斯分布中生成样本 $ X $。这个过程可以概述为：

假设我们有一个 GMM 模型，其中包含两个高斯成分（即 $K = 2$ ），其权重分别为 $\pi_1 = 0.6$ 和 $\pi_2 = 0.4$ 。这意味着：

公式 $\pi_k$ 是高斯混合模型的核心部分，定义了数据生成过程中选择每个高斯成分的概率。通过这些成分的加权组合，GMM 能够有效地建模复杂的分布结构。

公式 $\sim \mathcal{N}(\mu_k, \Sigma_k)$ 描述的是在给定潜在变量 $Z$ 等于某个特定值 $k$ 的情况下，随机变量 $X$ 的条件分布。这里的含义可以分解为以下几点：

$\sim \mathcal{N}(\mu_k, \Sigma_k)$ 表示 $X$ 服从均值为 $\mu_k$ 、协方差矩阵为 $\Sigma_k$ 的多元高斯分布（或正态分布）。
- 均值 $\mu_k$ ：这是成分 $k$ 的中心位置，表示该成分的“典型”数据点。
- 协方差矩阵 $\Sigma_k$ ：它描述了成分 $k$ 的数据点的分布形状和方向。协方差矩阵的对角线元素表示不同特征的方差，而非对角线元素则表示特征之间的相关性。

在高斯混合模型中，生成数据的过程可以总结为以下两步：

假设我们有两个高斯成分 $K = 2$ ：

成分 1： $\mu_1 = [2, 3]$ ， $\Sigma_1 = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$
成分 2： $\mu_2 = [5, 7]$ ， $\Sigma_2 = \begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix}$
在生成数据时：

以一定的概率（例如 $\pi_1 = 0.6$ , $\pi_2 = 0.4$ ）选择成分。
如果选择成分 1，生成的数据点 $X$ 将会满足：
$\sim \mathcal{N}\left(\begin{bmatrix} 2 \\ 3 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}\right)$
这意味着生成的点将会在均值 $[2, 3]$ 附近，并且具有单位方差，表示每个维度独立。

公式 $\sim \mathcal{N}(\mu_k, \Sigma_k)$
是高斯混合模型的核心部分，描述了在选择特定高斯成分 $k$ 的情况下数据的分布特性。通过不同成分的组合，GMM 能够灵活地捕捉复杂数据集的结构。