在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.以下对鸢尾花iris数据集进行聚类分析,代码如下:>data(iris);attach(iris)>iris.hc1<-hclust(dist(......
2023-11-18
对R 自带的stackloss数据集进行逐步回归.
(1)首先显示stackloss数据集的信息
其中,变量为stack.loss(氨气损失百分比),Air.Flow(空气流量),Water.Temp(水温),Acid.Conc.(硝酸浓度).
(2)计算变量间的相关性——相关系数
>cor(stackloss)
结果如下:
(3)散布图矩阵
>library(car)
>scatterplotMatrix(stackloss,spreed=FALSE,lty.smooth=2,
+main="Scatter plot Matrix")
结果如图4-1所示.
图4-1 散布图矩阵
从图4-1与“cor( )”的运行结果看,氨气损失百分比与空气流量、水温、硝酸浓度大致呈线性关系,可建立线性回归模型.
(4)进行回归分析
因变量为y(stack.loss,氨气损失百分比),自变量为x1 (Air.Flow,空气流量),x2(Water.Temp,水温),x3(Acid.Conc.,硝酸浓度).建立y 与x1,x2,x3的回归方程.
>lm.sol<-lm(stack.loss~Air.Flow+Water.Temp+Acid.Conc.,data=stackloss)(www.chuimin.cn)
>summary(lm.sol)
结果如下:
以上结果说明,氨气损失百分比这一因变量对回归常数、空气流量系数、水温系数显著,而对硝酸浓度不显著.
(5)使用“step( )”函数进行逐步回归
对AIC进行观测,尽可能地使AIC达到最小,以此往复直到建立更合理与简单实用的回归模型.
>lm.step<-step(lm.sol)
结果如下:
从以上结果可以看出,将硝酸浓度删除后AIC减小为52.12,但是减小得不是很明显.删除硝酸浓度这一变量之后不能再剔除其他变量,因为一旦删除则会导致AIC的上升.
>summary(lm.step)
结果如下:
权衡这些指标与AIC值,在得出回归方程时,应考虑剔除硝酸浓度这一变量.
由此得到的回归方程为y=-50.3588+0.6712x1+1.2954x2.
有关应用多元统计分析:基于R的实验的文章
在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.以下对鸢尾花iris数据集进行聚类分析,代码如下:>data(iris);attach(iris)>iris.hc1<-hclust(dist(......
2023-11-18
Harman74.cor数据集是R 软件自带的数据集,以下对该数据集进行因子分析.(1)查看Harman74数据集中(前面)部分信息Harman74.cor数据集,包含了对芝加哥郊区145名七年级和八年级儿童进行的24 项心理测试指标的相关系数矩阵.其中的24 项心理测试指标包括:VisualPerception,Cubes,PaperFormBoard,Flags,GeneralInformat......
2023-11-18
在实验4.4.1中曾对R 自带的stackloss数据集进行了逐步回归,现在我们在实验4.4.1的基础上进行回归诊断.(1)画回归诊断图>opar<-par(mfrow=c(2,2))>plot(lm.step,1:4)>par(opar)结果如图4-2所示.图4-2回归诊断图分析4张回归诊断图(图4-2).第1张是残差图,得到的残差图呈喇叭口形状,属于异方差情况(这样的数据需要作Box-Cox......
2023-11-18
USJudgeRatings数据集(R 自带),该数据集来自psych包,需加载以及调用psych包.(1)首先查看USJudgeRatings数据集的信息该数据集包含了律师对美国高等法院法官的评分,数据包含43个观测值,12个变量.12个变量如下:CONT:律师与法官的接触次数;INTG:法官正直程度;DMNR:风度;DILG:勤勉度;CFMG:案例流程管理水平;DECI:决策效率;PREP:审......
2023-11-18
以下对smoke数据集进行对应分析.(1)首先查看smoke数据集的信息>library(ca)>data("smoke")>smoke结果如下:这个数据集来自Greenacre(1984),被应用于多个统计软件作为对应分析的说明案例数据.它的内容是一个5行(阶层:SM,JM,SE,JE和SC)4列(吸烟习惯:none,light,medium 和heavy)的列联表,给出了一个虚构的公司内各阶层......
2023-11-18
ability.cov数据集是R 软件自带的数据集,以下对该数据集进行因子分析.(1)查看ability.cov数据集中的信息ability.cov数据集提供了Ability and Intelligence Tests(能力和智力测试)中,112个人参加的六个测试指标general(普通),picture(画图),blocks(积木),maze(迷津),reading(阅读),vocab(词汇)......
2023-11-18
在实验2.3.1中,我们对mtcars数据集进行了展示和描述.在实验2.3.3中,我们对mtcars数据集进行了可视化.现在我们对该数据集中的变量进行回归分析.(1)不考虑变量交互项对该数据集,如果把mpg(汽车每加仑公里数)作为因变量,自变量为hp(马力)和wt(汽车重量)进行回归.>fit<-lm(mpg~hp+wt,data=mtcars)>summary(fit)结果如下:得到的回归方程为......
2023-11-18
,xp,用向量表示X=(x1,x2,…,βp 为待估参数.Logistic回归模型中的参数估计常用极大似然估计法得到.设y 是0-1变量,x1,x2,…,n),取P=πi,P=1-πi,则yi 的联合概率函数为,yi=0,1;i=1,2,…,yn 的似然函数为对数似然函数为对于Logistic回归,将代入,得令=0,可以用数值计算求待估参数β0,β1,β2,…,βp 的极大似然估计.用R 软件可以解决Logistic回归模型中的参数估计、检验等问题.......
2023-11-18
相关推荐