目之所及,主成分分析应该是科研领域里最通用的一种数据分析手段。在相当长的一段时间里,我认为这种方法主要是用来进行探索分析的可视化手段与数据降维,但最近因为出现了一个绕不过去的数据问题就把主成分分析又拎出来看了一下,这才意识到这个方法其实四通八达,可以把很多数据分析的概念连接起来。
从线到点
首先还是回到一个最简单的场景,我有一堆数,想找出一个来做代表。从距离测量角度,就是找一个点让它离所有点最近,这就成了个优化问题,此时不同测量方法结论是不一样的。例如你考虑距离的绝对值最小,那你就会得到中位数;如果是差异的平方,求导后就是均值。回想下对一堆数 …