首页 历史故事主成分分析原理与方法

主成分分析原理与方法

【摘要】:主成分分析法的主要优点包括:①可消除评估指标之间的相关影响。对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费较多精力,而主成分分析法可以消除这种相关影响,所以在指标选择上相对容易些。对纽约交通事故进行主成分分析,从分析结果可以看出,KMO取样适宜性数量为0.491,巴特利特球形度检验的近似卡方值为1533.013,自由度为36,显著性小于0.001。表4.2旋转后的成分矩阵

主成分分析法(PCA)通过降维的数据处理技术,将多个存在一定关联度的指标简化成几个综合指标,即我们所说的主成分(张拯,2016)。每个主成分可以反映出原始变量中的大部分信息,另外每个主成分所包含的信息是不会存在叠加、重复情况的,因此在对多个变量进行分析研究的时候,主成分分析法不仅可以简化原本复杂、冗杂的数据信息,并且在一定程度上可以将复杂的问题进行简化性处理,使得通过主成分分析法获得的数据更加具有科学性,并且更为直观地反映出我们想看到的信息。

用方程表示多个变量(x1,x2,…,xn)转化成几个综合变量(主成分)(Z1,Z2,…,Zn),各个主成分之间互不相关(王莺等,2014):

其中,x是原始变量X的标准化变量;cij(i,j=1,2,…,n)为线性组合系数,叫做因子负荷量,它的大小以及正负号可以直接反映主成分与相应变量之间关系的密切程度和方向(王强等,2005)。

主成分分析法的主要优点包括:①可消除评估指标之间的相关影响。因为主成分分析法在对原始数据指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越高,主成分分析效果越好。②可减少指标选择的工作量。对于其他评估方法,由于难以消除评估指标间的相关影响,所以选择指标时要花费较多精力,而主成分分析法可以消除这种相关影响,所以在指标选择上相对容易些。③主成分分析中各主成分是按方差大小依次排序的,在分析问题时,可以舍弃一部分主成分,只取前面方差较大的几个主成分来代表原变量,从而减少了计算工作量。用主成分分析法作综合评估时,由于选择的原则是累计贡献率≥85%,不至于因为节省了工作量却把关键指标漏掉而影响评估结果(杨勇等,2009)。

在计算时可以采用SPSS进行主成分分析,包括对描述、抽取、旋转、得分等参数设置后,便可以得到主成分分析报表,需要关注如下几个关键指标或报表:

(1)KMO和巴特利特检验

KMO检验根据变量间简单相关系数和偏相关系数的关系来检验变量数据。当所有变量的简单相关系数平方和远远大于偏相关系数平方和时,变量间的相关性越强,越适合进行主成分分析;反之,则不适合进行主成分分析。

巴特利特检验以原有变量的相关系数矩阵为出发点,其原假设是相关系数矩阵为单位矩阵,检验的统计量根据相关系数矩阵的行列式得到,根据自由度和统计量观测值查询卡方分布表,可近似得到相应的相伴概率值。根据相伴概率与显著性水平之间的关系来判定变量之间是否存在相关关系且适合主成分分析(解坤等,2017)。

纽约交通事故进行主成分分析,从分析结果可以看出,KMO取样适宜性数量为0.491,巴特利特球形度检验的近似卡方值为1533.013,自由度为36,显著性小于0.001。

(2)总方差解释报表

总方差解释报表见表4.1,结果显示各个成分初始特征值中,有4个特征值大于1的成分,累计解释了原始指标53.085%的信息,略大于50%。

表4.1 总方差解释报表

(3)旋转成分矩阵

旋转成分矩阵结果见表4.2,表中第一列代表每个主题项的名称,一行代表一个主题项与每个提取因子的对应关系。在一般情况下,提取旋转成分矩阵中,因子载荷系数大于0.4的指标,作为对应主成分指标的构成指标,并根据指标构成对指标反映的维度进行概括。

结果显示:第一主成分由季节、温度组成,反映的是外界季节性的天气状况、温度等;第二主成分由假期、酒精组成,反映的是驾驶员自身的饮酒状态以及假期,社会人文因素影响;第三主成分主要由日夜、风速组成,反映的是每日光照、风力影响;第四主成分主要由车速以及大型车辆组成,反映的是车辆自身的条件状态对交通事故的影响。

表4.2 旋转后的成分矩阵