首页 理论教育主成分分析:基本思想及方法

主成分分析:基本思想及方法

【摘要】:,xp 表示p 门课程,c1,c2,…+cp xp.我们希望选择适当的权重能更好地区分学生的成绩.每个学生都对应一个这样的综合成绩,记为s1,s2,…,sn.如果这些值很分散,表明区分得好,就是说,需要寻找这样的加权,能使s1,s2,…,sn 尽可能的分散,下面来看它的统计定义.设X1,X2,…,Xp 表示以x1,x2,…,xp 为样本观测值的随机变量,如果能找到c1,c2,…,c1p)使得Var的值达到最大;(c21,c22,…,c3p)同时垂直于(c11,c12,…

如果用x1,x2,…,xp 表示p 门课程,c1,c2,…,cp 表示各门课程的权重,那么加权之和就是

s=c1 x1+c2 x2+…+cp xp

我们希望选择适当的权重能更好地区分学生的成绩.每个学生都对应一个这样的综合成绩,记为s1,s2,…,sn(n 为学生人数).如果这些值很分散,表明区分得好,就是说,需要寻找这样的加权,能使s1,s2,…,sn 尽可能的分散,下面来看它的统计定义.设X1,X2,…,Xp 表示以x1,x2,…,xp 为样本观测值的随机变量,如果能找到c1,c2,…,cp,使得方差

的值达到最大,则由于方差反映了数据差异的程度,因此也就表明我们抓住了这p个变量的最大变异.当然,式(9.1.1)必须加上某种限制,否则权值可选择无穷大而没有意义,通常规定

在此约束下,求式(9.1.1)的最优解.由于这个解是p 维空间的一个单位向量,它代表一个“方向”,它就是常说的主成分方向.

一个主成分不足以代表原来的p 个变量,因此需要寻找第二个乃至第三、第四主成分,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主成分的协方差为零,几何上就是这两个主成分的方向正交.具体确定各个主成分的方法如下.

设Zi 表示第i个主成分(i=1,2,…,p),可设(www.chuimin.cn)

其中,对每一个i,均有,且(c11,c12,…,c1p)使得Var(Z1)的值达到最大;(c21,c22,…,c2p)不仅垂直于(c11,c12,…,c1p),而且使Var(Z2)的值达到最大;(c31,c32,…,c3p)同时垂直于(c11,c12,…,c1p)和(c21,c22,…,c2p),并使Var(Z3)的值达到最大;以此类推可以得到全部p 个主成分,这项工作用手工做是很繁琐的,但借助于计算机很容易完成.剩下的是如何确定主成分的个数,我们总结在下面几个注意事项中.

(1)主成分分析的结果受量纲的影响,由于各变量的单位可能不一样,如果各自改变量纲,结果会不一样,这是主成分分析的最大问题,回归分析是不存在这种情况的,所以实际中可以先把各变量的数据标准化,然后使用协方差矩阵相关系数矩阵进行分析.

(2)使方差达到最大的主成分分析不用转轴(由于统计软件常把主成分分析和因子分析放在一起,后者往往需要转轴,使用时应注意).

(3)主成分的保留.用相关系数矩阵求主成分时,Kaiser主张将特征值小于1的主成分予以放弃(这也是SPSS软件的默认值).

(4)在实际研究中,由于主成分的目的是为了降维,减少变量的个数,故一般选取少量的主成分(不超过5或6个),一般只要它们能解释变异的70%~80%(称累积贡献率)就可以了.