在实验2.3.1中,我们对mtcars数据集(R 自带数据集)进行了展示和描述,以下对该数据集进行可视化.(1)汽车每加仑英里数直方图>hist(mtcars$mpg,breaks=10)结果如图2-1所示.(2)按汽缸数划分的各车型车重的核密度图>par(lwd=2)>library(sm)>cyl.f<-factor(mtcars$cyl,levels=c(4,6,8),labels=c("4......
2023-11-18
在实验2.3.1中,我们对mtcars数据集进行了展示和描述.在实验2.3.3中,我们对mtcars数据集进行了可视化.现在我们对该数据集中的变量进行回归分析.
(1)不考虑变量交互项
对该数据集,如果把mpg(汽车每加仑公里数)作为因变量,自变量为hp(马力)和wt(汽车重量)进行回归.
>fit<-lm(mpg~hp+wt,data=mtcars)
>summary(fit)
结果如下:
得到的回归方程为=37.22727-0.03177hp-3.87783wt.并且回归方程通过了显著性检验.
(2)考虑变量交互项
对该数据集,如果把mpg(汽车每加仑公里数)作为因变量,自变量为hp(马力)和wt(汽车重量)进行回归(考虑变量交互项).(www.chuimin.cn)
>fit<-lm(mpg~hp+wt+hp:wt,data=mtcars)
>summary(fit)
结果如下:
在上述代码中,“hp:wt”表示hp和wt的交互项.
上述结果表明,hp和wt的交互是显著的.
得到的回归方程为=49.80842-0.12010hp-8.21662wt+0.02785hp·wt.并且回归方程通过了显著性检验.
比较(1)和(2)中的结果,在不考虑变量交互项和考虑变量交互项两种情况下,回归方程虽然都能通过显著性检验,但从R-squared来看,0.8268和0.8848还是有些差别的,并且考虑变量交互项的效果要好一些.
有关应用多元统计分析:基于R的实验的文章
在实验2.3.1中,我们对mtcars数据集(R 自带数据集)进行了展示和描述,以下对该数据集进行可视化.(1)汽车每加仑英里数直方图>hist(mtcars$mpg,breaks=10)结果如图2-1所示.(2)按汽缸数划分的各车型车重的核密度图>par(lwd=2)>library(sm)>cyl.f<-factor(mtcars$cyl,levels=c(4,6,8),labels=c("4......
2023-11-18
,n).记则其中,1p=(1,1,…,pn·)表示对角线元素为p1·,p2·,…,pn· 的对角矩阵.因此,经过变换后所得到的新数据矩阵B,可以看成是由对应矩阵P 经过中心化和标准化后得到的矩阵.设用于检验行与列是否不相关的χ2 统计量为其中,表示第(i,j)单元在检验行与列两个属性变量否不相关时对总χ2 统计量的贡献,有其中,χ2==T[tr]=T[tr]=T[tr],tr表示方阵SQ 的迹.......
2023-11-18
在实验4.4.1中曾对R 自带的stackloss数据集进行了逐步回归,现在我们在实验4.4.1的基础上进行回归诊断.(1)画回归诊断图>opar<-par(mfrow=c(2,2))>plot(lm.step,1:4)>par(opar)结果如图4-2所示.图4-2回归诊断图分析4张回归诊断图(图4-2).第1张是残差图,得到的残差图呈喇叭口形状,属于异方差情况(这样的数据需要作Box-Cox......
2023-11-18
在实验2.3.2中对iris数据集进行了描述和展示,以下对iris数据集进行可视化.花萼长度、花萼宽度、花瓣长度、花瓣宽度的小提琴图小提琴图是箱线图的变种,因为形状酷似小提琴而得名.小提琴图是将箱线图与核密度图结合在一起,它在箱线图上以镜像方式叠加上核密度图.绘制小提琴图,可以使用vioplot包中的“vioplot( )”函数,但在第一次使用之前请先安装vioplot包.“vioplot( )”函数的调用格式为:vioplot(x1,x2,…......
2023-11-18
women数据集(R 自带数据集)提供了15个年龄在30~39岁之间女性的身高和体重的信息.(1)查看women数据集(身高和体重)的信息>women结果如下:(2)weight和height的简单线性回归>fit<-lm(weight~height,data=women)>summary(fit)结果如下:由此得到的回归方程为从以上结果可以看出,回归方程通过检验.(3)身高和体重的散点图以及回归......
2023-11-18
用MASS包中的UScereal数据集,我们研究美国谷物中的卡路里、脂肪和糖含量是否会因为储存架位置的不同而发生变化.其中1代表底层货架,2代表中层货架,3代表顶层货架.卡路里(calories)、脂肪(fat)和糖(sugars)含量是因变量,货架是3水平(1,2,3)的自变量.(1)单因素多元方差分析在以上代码中,“cbind( )”函数将三个变量(calories,fat,sugars)合并......
2023-11-18
iris数据集是R 自带的数据集,以下对该数据集进行描述和展示.(1)展示iris数据集的前几行>head(iris)结果如下:其中Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,分别表示(鸢尾花)花萼(Sepal)的长度,花萼的宽度,花瓣(Petal)的长度,花瓣的宽度以及每个观测值来自哪一种类.(2)对鸢尾花数据集的数据进行描......
2023-11-18
多元统计分析是统计学中应用性很强的一个分支,它的应用范围十分广泛.多元统计分析可以应用于几乎所有的领域,主要包括经济学、农业、地质学、医学、工业、气象学、金融、精算、物理学、地理学、军事科学、文学、法律、环境科学、考古学、体育科学、遗传学、教育学、生物学、管理科学、水文学等,还有一些交叉学科或方向等.多元统计分析的应用实在是难以一一罗列,以下简要地介绍一下多元统计分析在文学、数据挖掘(作为交叉学科......
2023-11-18
相关推荐