主成分分析法的主要优点包括:①可消除评估指标之间的相关影响。对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费较多精力,而主成分分析法可以消除这种相关影响,所以在指标选择上相对容易些。对纽约交通事故进行主成分分析,从分析结果可以看出,KMO取样适宜性数量为0.491,巴特利特球形度检验的近似卡方值为1533.013,自由度为36,显著性小于0.001。表4.2旋转后的成分矩阵......
2023-06-15
如果用x1,x2,…,xp 表示p 门课程,c1,c2,…,cp 表示各门课程的权重,那么加权之和就是
s=c1 x1+c2 x2+…+cp xp.
我们希望选择适当的权重能更好地区分学生的成绩.每个学生都对应一个这样的综合成绩,记为s1,s2,…,sn(n 为学生人数).如果这些值很分散,表明区分得好,就是说,需要寻找这样的加权,能使s1,s2,…,sn 尽可能的分散,下面来看它的统计定义.设X1,X2,…,Xp 表示以x1,x2,…,xp 为样本观测值的随机变量,如果能找到c1,c2,…,cp,使得方差
的值达到最大,则由于方差反映了数据差异的程度,因此也就表明我们抓住了这p个变量的最大变异.当然,式(9.1.1)必须加上某种限制,否则权值可选择无穷大而没有意义,通常规定
在此约束下,求式(9.1.1)的最优解.由于这个解是p 维空间的一个单位向量,它代表一个“方向”,它就是常说的主成分方向.
一个主成分不足以代表原来的p 个变量,因此需要寻找第二个乃至第三、第四主成分,第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主成分的协方差为零,几何上就是这两个主成分的方向正交.具体确定各个主成分的方法如下.
设Zi 表示第i个主成分(i=1,2,…,p),可设(www.chuimin.cn)
其中,对每一个i,均有,且(c11,c12,…,c1p)使得Var(Z1)的值达到最大;(c21,c22,…,c2p)不仅垂直于(c11,c12,…,c1p),而且使Var(Z2)的值达到最大;(c31,c32,…,c3p)同时垂直于(c11,c12,…,c1p)和(c21,c22,…,c2p),并使Var(Z3)的值达到最大;以此类推可以得到全部p 个主成分,这项工作用手工做是很繁琐的,但借助于计算机很容易完成.剩下的是如何确定主成分的个数,我们总结在下面几个注意事项中.
(1)主成分分析的结果受量纲的影响,由于各变量的单位可能不一样,如果各自改变量纲,结果会不一样,这是主成分分析的最大问题,回归分析是不存在这种情况的,所以实际中可以先把各变量的数据标准化,然后使用协方差矩阵或相关系数矩阵进行分析.
(2)使方差达到最大的主成分分析不用转轴(由于统计软件常把主成分分析和因子分析放在一起,后者往往需要转轴,使用时应注意).
(3)主成分的保留.用相关系数矩阵求主成分时,Kaiser主张将特征值小于1的主成分予以放弃(这也是SPSS软件的默认值).
(4)在实际研究中,由于主成分的目的是为了降维,减少变量的个数,故一般选取少量的主成分(不超过5或6个),一般只要它们能解释变异的70%~80%(称累积贡献率)就可以了.
有关应用多元统计分析:基于R的实验的文章
主成分分析法的主要优点包括:①可消除评估指标之间的相关影响。对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费较多精力,而主成分分析法可以消除这种相关影响,所以在指标选择上相对容易些。对纽约交通事故进行主成分分析,从分析结果可以看出,KMO取样适宜性数量为0.491,巴特利特球形度检验的近似卡方值为1533.013,自由度为36,显著性小于0.001。表4.2旋转后的成分矩阵......
2023-06-15
为了说明什么是数据的主成分,先从数据降维说起。一般来讲,n维空间中的n个点一定能在一个n-1维子空间中分析。在上一段中,我们可以认为数据降维后并没有丢弃任何东西,因为这些数据在平面以外的第三个维度的分量都为0。主成分分析的思想:将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。......
2023-06-21
实际上主成分分析可以说是因子分析(factor analysis)的一个特例.主成分分析从原理上是寻找椭球的所有主轴.因此,原先有几个变量就有几个主成分.而因子分析是事先确定要找几个成分(component),也称为因子(factor)(从数学模型本身来说是事先确定因子个数,但统计软件是事先确定因子个数,或者把符合某些标准的因子都选入).变量和因子个数的不一致使得不仅在数学模型上,而且在计算方法上......
2023-11-18
2009年14个首批沿海开放城市(大连市、秦皇岛市、天津市、烟台市、青岛市、连云港市、南通市、上海市、宁波市、温州市、福州市、广州市、湛江市、北海市)实现地区生产总值达到60 003.47亿元,全国国内生产总值为335 353.00亿元,首批沿海开放城市地区生产总值占全国的17.9%,大大高出了人口占全国的比重(7.1%).在遵循合理性、代表性、系统性、可比性、可操作性及可获得性的原则下,选取了能......
2023-11-18
USJudgeRatings数据集(R 自带),该数据集来自psych包,需加载以及调用psych包.(1)首先查看USJudgeRatings数据集的信息该数据集包含了律师对美国高等法院法官的评分,数据包含43个观测值,12个变量.12个变量如下:CONT:律师与法官的接触次数;INTG:法官正直程度;DMNR:风度;DILG:勤勉度;CFMG:案例流程管理水平;DECI:决策效率;PREP:审......
2023-11-18
那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分.有些文献建议,所选的主轴总长度占所有主轴长度之和的大约80%即可.其实,这只是一个大体的说法;具体选几个,要看实际情况而定.但如果所有涉及的变量都不那么相关,就很难降维.不相关的变量就只有自己代表自己了.......
2023-11-18
对4 种植物不同器官的生物量、δ13C 值组成及N、P、K 营养元素含量进行主成分分析,结果如表6-5 所示,最终得到3 个特征值大于1的主成分,累计百分比为78.95%,可以反映原始指标的大部分信息。表6-5不同主成分的特征值和累积贡献值 Table 6-5Principal component variance analysis表6-6主成分载荷矩阵 Table 6-6Principal Component Load Matrix图6-5干旱胁迫对4 种植物生物量、δ13C 值及营养元素影响的主成分分析 Fig.6-5The principal component analysis of the effects of drought stress on biomass, δ 13C value and nutrient elements of 4 plant species......
2023-11-04
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。当然,这种情况也可以使用因子分析做到,所以它们的区分不是绝对的。可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。因子分析主要用于:减少分析变量个数;通过对变量间相关关系探测,将原始变量进行分类。......
2023-08-23
相关推荐