在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.以下对鸢尾花iris数据集进行聚类分析,代码如下:>data(iris);attach(iris)>iris.hc1<-hclust(dist(......
2023-11-18
Harman74.cor数据集是R 软件自带的数据集,以下对该数据集进行因子分析.
(1)查看Harman74数据集中(前面)部分信息
Harman74.cor数据集,包含了对芝加哥郊区145名七年级和八年级儿童进行的24 项心理测试指标的相关系数矩阵.其中的24 项心理测试指标包括:VisualPerception,Cubes,PaperFormBoard,Flags,GeneralInformation,Pargraph-Comprehension,SentenceCompletion,WordClassification,Word Meaning,Addition,Code,CountingDots,StraightCurvedCapitals,WordRecognition,NumberRecognition,FigureRecognition,Object Number,Number Figure,FigureWord,Deduction,NumericalPuzzles,Problem Reasoning,SeriesCom-pletion,ArithmeticProblems.
为了研究如何用一组较少的、潜在的心理学因素(因子)来解释原来的24项心理测试指标(达到降维的目的),以下对该数据集进行因子分析.
(2)利用相关系数矩阵数据画相关系数图
>install.packages(ˈcorrplotˈ)
>library(corrplot)
>cor_matr<-correlations
>names(cor_matr)<-NULL
>symnum(correlations)
>corrplot(correlations,type="upper",order="hclust",tl.col="black",tl.srt=45)
结果如图10-6所示.
图10-6 相关系数图
从图10-6可以发现大部分变量之间的没有较为明显的相关性甚至几乎没有相关性,个别变量之间存在着较强的相关性.
(3)因子个数的确定
>fa.parallel(correlations,n.obs=112,fa="fa",n.iter=100)
结果如图10-7所示.
如图10-7所示,通过实际数据(Actual Data)和模拟数据(Simulated Data)的分析,可以考虑提取4个公共因子.
(4)取公共因子——未旋转(rotate=none)
图10-7 判定因子个数
用“fa( )”函数提取公共因子,其代码和结果如下:
结合上述信息,可以看到,4个因子解释了24个测量指标的48%的变异,解释的效果并不好,且因子载荷矩阵的意义并不太好解释.因此可以考虑进行因子旋转,使因子有一个更好的解释.
(4)取公共因子——正交旋转
正交旋转的代码和结果如下:(www.chuimin.cn)
结果显示因子变得比未旋转之前变得更加好解释了.变量SentenceCompletion,PargraphComprehension,Word Meaning在第一因子上载荷较大,但第二因子的解释性仍然不强.使用正交旋转将人为地强制4个因子不相关,但也可以允许因子之间相关,因此可以使用斜交转法,即promax方法.
(5)取公共因子——斜交旋转
斜交旋转的代码和结果如下:
根据以上结果,可以看出正交与斜交的不同之处.对于正交旋转,因子分析的重点在于因子结构矩阵(变量与因子的相关系数),而对于斜交旋转,因子分析会考虑三个矩阵:因子结构矩阵、因子模式矩阵和因子关联矩阵.从计算结果可以发现,不同因子之间的相关系数在0.47~0.59.
因子模式矩阵即标准化的回归系数矩阵,它列出了因子的预测变量的权重、因子关联矩阵即因子相关系数矩阵、因子结构矩阵(或称因子载荷阵).
在上面的结果中,PA1和PA2栏中的值组成了因子模式矩阵.它们是标准化的回归系数,而不是相关系数.如果因子间的关联性很低,可能需要重新使用正交旋转来简化问题.因子结构矩阵(或称因子载荷矩阵)没有被列出来,但可以使用公式F=P·Phi得到它,其中F是因子载荷阵,P 是因子模式矩阵,Phi是因子关联矩阵.下面的函数即可进行该乘法运算.
因子结构矩阵:
从上述计算结果看到变量与因子间的相关系数.将它们与正交旋转所得因子载荷阵相比,会发现该载荷阵列的噪音比较大,这是因为之前允许潜在因子相关.虽然斜交旋转更为复杂,但因子的解释性更好.
(6)斜交效果图
使用“factor.plot( )”或“fa.diagram( )”函数,可以绘制正交或斜交结果的图形.画斜交效果,其代码和结果如下:
>factor.plot(fa.24tests,labels=rownames(fa.24tests$loadings))
>fa.diagram(fa.24tests,simple=FALSE)
结果如图10-8所示.
根据图10-8,可以看出:
图10-8 斜交结果图
因子1支配的指标有:SentenceCompletion(句子填空),Word Meaning(词义),PargraphComprehension(句式理解),GeneralInformation(一般信息),WordClassification(词类分类),代表的是“词语”因子.
因子2支配的指标有:Addition(加法),CountingDots(计算点数),Straight-Curved Capitals(大写字母),Code(代码),ArithmeticProblems(算术问题),NumericalPuzzles(数字谜题),代表的是“速度”因子.
因子3支配的指标有:VisualPerception(视觉感知),Paper FormBoard(纸板),Flags(旗帜),Cubes(立方体),SeriesCompletion(序列完成),Deduction(演绎),Problem Reasoning(问题推理),代表的是“推理”因子.
因子4支配的指标有:Object Number(对象数量),WordRecognition(文字认知),Number Reco-gnition(数字识别),FigureRecognition(形象识别),Number Figure(数字图形),FigureWord(图字),代表的是“记忆”因子.
综合以上结果,可以得到以下结论:
24个心理指标可以归结为4个公共因子,包括词语因子,速度因子,推理因子和记忆因子.
有关应用多元统计分析:基于R的实验的文章
在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.以下对鸢尾花iris数据集进行聚类分析,代码如下:>data(iris);attach(iris)>iris.hc1<-hclust(dist(......
2023-11-18
USJudgeRatings数据集(R 自带),该数据集来自psych包,需加载以及调用psych包.(1)首先查看USJudgeRatings数据集的信息该数据集包含了律师对美国高等法院法官的评分,数据包含43个观测值,12个变量.12个变量如下:CONT:律师与法官的接触次数;INTG:法官正直程度;DMNR:风度;DILG:勤勉度;CFMG:案例流程管理水平;DECI:决策效率;PREP:审......
2023-11-18
对R 自带的stackloss数据集进行逐步回归.(1)首先显示stackloss数据集的信息其中,变量为stack.loss(氨气损失百分比),Air.Flow(空气流量),Water.Temp(水温),Acid.Conc.(硝酸浓度).(2)计算变量间的相关性——相关系数>cor(stackloss)结果如下:(3)散布图矩阵>library(car)>scatterplotMatrix(st......
2023-11-18
ability.cov数据集是R 软件自带的数据集,以下对该数据集进行因子分析.(1)查看ability.cov数据集中的信息ability.cov数据集提供了Ability and Intelligence Tests(能力和智力测试)中,112个人参加的六个测试指标general(普通),picture(画图),blocks(积木),maze(迷津),reading(阅读),vocab(词汇)......
2023-11-18
以下对smoke数据集进行对应分析.(1)首先查看smoke数据集的信息>library(ca)>data("smoke")>smoke结果如下:这个数据集来自Greenacre(1984),被应用于多个统计软件作为对应分析的说明案例数据.它的内容是一个5行(阶层:SM,JM,SE,JE和SC)4列(吸烟习惯:none,light,medium 和heavy)的列联表,给出了一个虚构的公司内各阶层......
2023-11-18
在实验2.3.1中,我们对mtcars数据集进行了展示和描述.在实验2.3.3中,我们对mtcars数据集进行了可视化.现在我们对该数据集中的变量进行回归分析.(1)不考虑变量交互项对该数据集,如果把mpg(汽车每加仑公里数)作为因变量,自变量为hp(马力)和wt(汽车重量)进行回归.>fit<-lm(mpg~hp+wt,data=mtcars)>summary(fit)结果如下:得到的回归方程为......
2023-11-18
在实验2.3.1中,我们对mtcars数据集(R 自带数据集)进行了展示和描述,以下对该数据集进行可视化.(1)汽车每加仑英里数直方图>hist(mtcars$mpg,breaks=10)结果如图2-1所示.(2)按汽缸数划分的各车型车重的核密度图>par(lwd=2)>library(sm)>cyl.f<-factor(mtcars$cyl,levels=c(4,6,8),labels=c("4......
2023-11-18
,xp,用向量表示X=(x1,x2,…,βp 为待估参数.Logistic回归模型中的参数估计常用极大似然估计法得到.设y 是0-1变量,x1,x2,…,n),取P=πi,P=1-πi,则yi 的联合概率函数为,yi=0,1;i=1,2,…,yn 的似然函数为对数似然函数为对于Logistic回归,将代入,得令=0,可以用数值计算求待估参数β0,β1,β2,…,βp 的极大似然估计.用R 软件可以解决Logistic回归模型中的参数估计、检验等问题.......
2023-11-18
相关推荐