数据降维LDA，ICA，FA，MFA

书接上文，上文介绍了PCA，接下来介绍几种数据降维的方法。

LDA（Linear Discriminant Analysis, 线性判别分析）

理论推导

线性判别分析是一种有监督的降维方法，核心思想是通过线性变换进行降维，使得不同label下的特征最有区分度
假设有多类数据，类别 $i$ 为 $x\in X_i \Rightarrow y_i$ ，均值 $\mu_i=\frac{1}{|X_i|}\sum_{x\in X_i}x$ ，方差 $\Sigma_i=\frac{1}{|X_i|}\sum_{x\in X_i}(x-\mu_i)(x-\mu_i)^T$
所有数据总体的均值为 $\mu=\frac{1}{|X|}\sum x$
定义间散度矩阵为 $S_{\mu}=\sum_i \frac{|X_i|}{|X|}(\mu_i-\mu)(\mu_i-\mu)^T$ ，可以看作是不同类别中心点的之间的离散程度
定义内散度矩阵为 $S_{\Sigma}=\sum_i \Sigma_i$ 也有地方定义为 $S_{\Sigma}=\sum_i \frac{|X_i|}{|X|}\Sigma_i$ ，可以看作是不同类别的集中程度

显然我们希望变换后散度矩阵越大越好，内散度矩阵越小越好，要求得线性变换矩阵 $W$ 形式上可以写作

W = a r g m a x W W T S μ W W T