首页 理论教育基于R的实验:Harman74数据集的因子分析

基于R的实验:Harman74数据集的因子分析

【摘要】:Harman74.cor数据集是R 软件自带的数据集,以下对该数据集进行因子分析.(1)查看Harman74数据集中(前面)部分信息Harman74.cor数据集,包含了对芝加哥郊区145名七年级和八年级儿童进行的24 项心理测试指标的相关系数矩阵.其中的24 项心理测试指标包括:VisualPerception,Cubes,PaperFormBoard,Flags,GeneralInformat

Harman74.cor数据集是R 软件自带的数据集,以下对该数据集进行因子分析

(1)查看Harman74数据集中(前面)部分信息

Harman74.cor数据集,包含了对芝加哥郊区145名七年级和八年级儿童进行的24 项心理测试指标的相关系数矩阵.其中的24 项心理测试指标包括:VisualPerception,Cubes,PaperFormBoard,Flags,GeneralInformation,Pargraph-Comprehension,SentenceCompletion,WordClassification,Word Meaning,Addition,Code,CountingDots,StraightCurvedCapitals,WordRecognition,NumberRecognition,FigureRecognition,Object Number,Number Figure,FigureWord,Deduction,NumericalPuzzles,Problem Reasoning,SeriesCom-pletion,ArithmeticProblems.

为了研究如何用一组较少的、潜在的心理学因素(因子)来解释原来的24项心理测试指标(达到降维的目的),以下对该数据集进行因子分析.

(2)利用相关系数矩阵数据画相关系数图

>install.packages(ˈcorrplotˈ)

>library(corrplot)

>cor_matr<-correlations

>names(cor_matr)<-NULL

>symnum(correlations)

>corrplot(correlations,type="upper",order="hclust",tl.col="black",tl.srt=45)

结果如图10-6所示.

图10-6 相关系数图

从图10-6可以发现大部分变量之间的没有较为明显的相关性甚至几乎没有相关性,个别变量之间存在着较强的相关性.

(3)因子个数的确定

>fa.parallel(correlations,n.obs=112,fa="fa",n.iter=100)

结果如图10-7所示.

如图10-7所示,通过实际数据(Actual Data)和模拟数据(Simulated Data)的分析,可以考虑提取4个公共因子.

(4)取公共因子——未旋转(rotate=none)

图10-7 判定因子个数

用“fa( )”函数提取公共因子,其代码和结果如下:

结合上述信息,可以看到,4个因子解释了24个测量指标的48%的变异,解释的效果并不好,且因子载荷矩阵的意义并不太好解释.因此可以考虑进行因子旋转,使因子有一个更好的解释.

(4)取公共因子——正交旋转

正交旋转的代码和结果如下:(www.chuimin.cn)

结果显示因子变得比未旋转之前变得更加好解释了.变量SentenceCompletion,PargraphComprehension,Word Meaning在第一因子上载荷较大,但第二因子的解释性仍然不强.使用正交旋转将人为地强制4个因子不相关,但也可以允许因子之间相关,因此可以使用斜交转法,即promax方法.

(5)取公共因子——斜交旋转

斜交旋转的代码和结果如下:

根据以上结果,可以看出正交与斜交的不同之处.对于正交旋转,因子分析的重点在于因子结构矩阵(变量与因子的相关系数),而对于斜交旋转,因子分析会考虑三个矩阵:因子结构矩阵、因子模式矩阵和因子关联矩阵.从计算结果可以发现,不同因子之间的相关系数在0.47~0.59.

因子模式矩阵即标准化的回归系数矩阵,它列出了因子的预测变量的权重、因子关联矩阵即因子相关系数矩阵、因子结构矩阵(或称因子载荷阵).

在上面的结果中,PA1和PA2栏中的值组成了因子模式矩阵.它们是标准化的回归系数,而不是相关系数.如果因子间的关联性很低,可能需要重新使用正交旋转来简化问题.因子结构矩阵(或称因子载荷矩阵)没有被列出来,但可以使用公式F=P·Phi得到它,其中F是因子载荷阵,P 是因子模式矩阵,Phi是因子关联矩阵.下面的函数即可进行该乘法运算.

因子结构矩阵:

从上述计算结果看到变量与因子间的相关系数.将它们与正交旋转所得因子载荷阵相比,会发现该载荷阵列的噪音比较大,这是因为之前允许潜在因子相关.虽然斜交旋转更为复杂,但因子的解释性更好.

(6)斜交效果图

使用“factor.plot( )”或“fa.diagram( )”函数,可以绘制正交或斜交结果的图形.画斜交效果,其代码和结果如下:

>factor.plot(fa.24tests,labels=rownames(fa.24tests$loadings))

>fa.diagram(fa.24tests,simple=FALSE)

结果如图10-8所示.

根据图10-8,可以看出:

图10-8 斜交结果图

因子1支配的指标有:SentenceCompletion(句子填空),Word Meaning(词义),PargraphComprehension(句式理解),GeneralInformation(一般信息),WordClassification(词类分类),代表的是“词语”因子.

因子2支配的指标有:Addition(加法),CountingDots(计算点数),Straight-Curved Capitals(大写字母),Code(代码),ArithmeticProblems(算术问题),NumericalPuzzles(数字谜题),代表的是“速度”因子.

因子3支配的指标有:VisualPerception(视觉感知),Paper FormBoard(纸板),Flags(旗帜),Cubes(立方体),SeriesCompletion(序列完成),Deduction(演绎),Problem Reasoning(问题推理),代表的是“推理”因子.

因子4支配的指标有:Object Number(对象数量),WordRecognition(文字认知),Number Reco-gnition(数字识别),FigureRecognition(形象识别),Number Figure(数字图形),FigureWord(图字),代表的是“记忆”因子.

综合以上结果,可以得到以下结论:

24个心理指标可以归结为4个公共因子,包括词语因子,速度因子,推理因子和记忆因子.