推荐CrossValidated的人气答主(top 0.11%)amoeba对PCA的解释,目前我见到的最通俗易懂的解释,循序渐进,由浅入深:
amoeba设想了一个大家庭聚餐的场景,大家突然对PCA是怎么回事很感兴趣,于是你逐一向家庭成员解释,首先是曾祖母,接着是祖母,接着是母亲,然后是配偶,最后是女儿,每个人都比上一个人内行一点。
曾祖母:我听说你正研究P……C……A。我想知道它是什么……
你:呃,这只是一种总结某些数据的方法。看,桌子那边有一些红酒瓶。我们可以通过色泽、酒精度、年份等描述每瓶红酒。这样可以根据酒窖中每瓶红酒的不同特性编制一张完整的列表。但是其中很多属性是相关的,因此会出现一些冗余。因此我们可以通过更少的特性总结每瓶酒!这正是PCA做的。红酒色泽。图片来源:winefolly.com
祖母:很有趣!所以这PCA检查哪些特性是冗余的,然后丢弃它们?
你:问得好,奶奶!不,PCA并没有选择一些特性然后丢弃其余。相反,它创建一些新特性,结果这些新特性能够很好地总结我们的红酒列表。当然,这些新特性是由旧特性构建的;例如,一个新特性可能通过计算年份减去酸度或其它类似的组合得出(我们称之为线性组合)。
事实上,PCA寻找最佳的可能特性,那些可能总结红酒列表的特性中最好的那些(在所有可能的线性组合中)。因此它才这么有用。
母亲:嗯,听起来不错,但我不确定我理解它了。你说的“总结”红酒列表的