Bootstrap

标准主元分析法(Principal Component Analysis,PCA)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

提示:这里可以添加本文要记录的大概内容:


提示:以下是本篇文章正文内容,下面案例可供参考

一、标准主元分析法的原理?

标准主元分析法(Principal Component Analysis,PCA)是一种用于数据降维和特征提取的常用统计技术。它的主要目标是将原始数据集投影到一个新的坐标系中,以便在新坐标系下最大化数据的方差。这些新坐标被称为主成分,它们是原始特征的线性组合。PCA的主要原理是找到方差最大的方向作为第一个主成分,然后找到与第一个主成分正交且具有最大方差的方向作为第二个主成分,依此类推。

二、原理

数据中心化: 首先,将原始数据集的每个特征减去其均值,以使数据集的均值为零。这是为了确保PCA不会受到数据的平移影响。

计算协方差矩阵: 计算数据的协方差矩阵,该矩阵描述了特征之间的关系和方差。协方差矩阵的特征向量是主成分,对应的特征值表示数据在每个主成分上的方差。

选择主成分: 根据特征值的大小选择要保留的主成分数量。通常,我们会按照特征值从大到小的顺序保留前k个主成分,其中k是用户定义的维度。

投影数据: 将原始数据集投影到所选的主成分上,得到新的特征矩阵。

三、使用方法

数据准备: 收集和准备要进行PCA的数据。确保数据已经中心化,或者在进行PCA之前对数据进行中心化处理。

计算协方差矩阵: 计算数据的协方差矩阵,可以使用MATLAB中的cov函数或Python中的NumPy库来执行此操作。

计算特征值和特征向量: 对协方差矩阵进行特征值分解,得到特征值和特征向量。这可以使用特征值分解函数来完成,如MATLAB中的eig函数或Python中的NumPy函数。

选择主成分: 根据特征值的大小选择要保留的主成分数量。通常,可以通过设置一个方差解释比例(如95%)来决定要保留多少个主成分。

投影数据: 将原始数据投影到所选的主成分上,得到新的特征矩阵。这可以通过矩阵乘法来实现。

应用主成分: 使用新的特征矩阵进行后续的分析任务,如聚类、分类或可视化。

[coef, score, latent, t2] = pca(Tra)
% 这行代码执行主成分分析(PCA)操作,并将结果存储在四个变量中:coef、score、latent 和 t2。

% 输入参数:
% Tra - 输入数据矩阵,通常是一个包含观测样本的数据集,其中每一行表示一个样本,每一列表示一个特征。

% 输出参数:
% coef - 主成分系数矩阵,包含了原始数据在主成分方向上的投影系数。每一列对应一个主成分,coef 的行数等于特征数。
% score - 投影到主成分上的新数据矩阵,每一行对应一个观测样本,每一列对应一个主成分。score 的行数等于样本数。
% latent - 主成分的方差解释度,表示每个主成分解释的方差的百分比。按照方差解释度从高到低排序。
% t2 - 观测样本在主成分空间中的平方距离,也称为 Hotelling's T-squared 统计量。

% 该函数将原始数据通过PCA进行降维,得到新的特征矩阵 score 和主成分系数 coef。

这个代码片段演示了如何使用MATLAB中的pca函数执行主成分分析,以便对数据进行降维和特征提取。根据输入的数据集 Tra,函数将返回四个重要的结果,允许你在主成分空间中操作数据。通常,这些结果用于后续的分析、可视化或特征选择等任务。

观测样本在主成分空间中的平方距离通常是指在经过主成分分析(PCA)降维后的特征空间中,某个观测样本到数据集的均值或中心的距离的平方。这个平方距离被称为 Hotelling’s T-squared 统计量。

Hotelling’s T-squared 统计量用于测量一个样本点在主成分空间中与整个数据集的偏离程度。具体来说:

  1. 首先,对数据集进行PCA降维,得到一组主成分。这些主成分是原始数据特征的线性组合,通常按照方差解释度从高到低排列。

  2. 然后,计算每个观测样本在主成分空间中的投影。这是通过将观测样本与主成分系数相乘得到的。

  3. 接下来,计算每个观测样本到数据集中心的距离的平方,其中数据集中心是在主成分空间中所有样本的均值。

  4. 这些平方距离的和构成了Hotelling’s T-squared 统计量。

Hotelling’s T-squared 统计量的值表示了一个观测样本在主成分空间中偏离数据集中心的程度。较大的统计量值意味着观测样本与数据集的差异较大。这个统计量在统计分析和多元统计中经常用于假设检验,例如,用于确定一个观测样本是否属于某个特定分布或群体。

总之,Hotelling’s T-squared 统计量是一个衡量观测样本在主成分空间中位置的重要指标,它可以用于检测离群值、分类问题、控制质量等各种应用中。

总结

PCA可用于数据压缩、噪声过滤、可视化、特征选择等多个领域。它可以帮助降低数据维度,减少计算复杂性,同时保留数据中的重要信息。

;