在实验2.3.1中,我们对mtcars数据集进行了展示和描述.在实验2.3.3中,我们对mtcars数据集进行了可视化.现在我们对该数据集中的变量进行回归分析.(1)不考虑变量交互项对该数据集,如果把mpg(汽车每加仑公里数)作为因变量,自变量为hp(马力)和wt(汽车重量)进行回归.>fit<-lm(mpg~hp+wt,data=mtcars)>summary(fit)结果如下:得到的回归方程为......
2023-11-18
women数据集(R 自带数据集)提供了15个年龄在30~39岁之间女性的身高和体重的信息.
(1)查看women数据集(身高和体重)的信息
>women
结果如下:
(2)weight和height的简单线性回归
>fit<-lm(weight~height,data=women)
>summary(fit)
结果如下:
由此得到的回归方程为
从以上结果可以看出,回归方程通过检验.
(3)身高和体重的散点图以及回归直线
>plot(women$height,women$weight)
>abline(fit)
结果如图3-1所示.
图3-1 身高和体重的散点图以及回归直线
从图3-1可以看出,15个数据点在一条直线附近.
(4)添加一个身高的平方项
添加一个身高的平方项来提高回归的精度.用I(x∧2)创建变量x2(函数“I( )”是必要的,因为“∧”在公式中有特殊的含义.
I(height∧2)表示添加一个身高的平方项.
>fit2<-lm(weight~height+I(height∧2),data=women)
>summary(fit2)
结果如下:
由此得到的回归方程为
(www.chuimin.cn)
从以上结果可以看出,回归方程通过检验.
(5)身高和体重的散点图及其二次回归
>plot(women$height,women$weight)
>lines(women$height,fitted(fit2))
结果如图3-2所示.
从图3-2中,可以看到二次回归曲线拟合效果比线性好.
图3-2 身高和体重的散点图及其二次回归曲线
(6)添加一个身高的三次项
I(height∧3)表示添加一个身高的三次项.
>fit3<-lm(weight~height+I(height∧2)+I(height∧3),data=women)
>summary(fit3)
结果如下:
(7)身高和体重的散点图及其三次回归
以下调用car包中的“scatterplot( )”函数,画身高和体重的散点图及其三次回归:
>library(car)
>scatterplot(weight~height,data=women,
+spreed=FALSE,lty.smooth=2,
+pch=19,
+main="women Age 30-39",
+xlab="height(lnches)",
+ylab="weight(lbs.)")
结果如图3-3所示.
图3-3 身高和体重的散点图及其三次回归曲线
在图3-3中,边界为箱线图.从图3-3中,可以看到三次回归曲线拟合效果比线性更好.
有关应用多元统计分析:基于R的实验的文章
在实验2.3.1中,我们对mtcars数据集进行了展示和描述.在实验2.3.3中,我们对mtcars数据集进行了可视化.现在我们对该数据集中的变量进行回归分析.(1)不考虑变量交互项对该数据集,如果把mpg(汽车每加仑公里数)作为因变量,自变量为hp(马力)和wt(汽车重量)进行回归.>fit<-lm(mpg~hp+wt,data=mtcars)>summary(fit)结果如下:得到的回归方程为......
2023-11-18
多元线性回归的数学模型可以用矩阵形式表示为1.参数β的最小二乘估计设b0,b1,…表4-1 回归正交设计计算表通过推导,可以得到方差分析表4-2。表4-2 方差分析表3.回归方程的显著性检验F>Fα 若式成立,我们可以认为在显著水平α下,线性回归方程(4-6)是有显著意义的。反之,则认为线性回归方程没有什么意义,这时需要查明原因,具体情况具体分析。......
2023-06-27
,n)总的分散程度,对SST 进行分解,得到其中,.可以证明,,由此得其中,.SSR 叫做回归平方和,由于所以SSR 是回归值 的离差平方和,它反映了yi(i=1,2,…......
2023-11-18
根据上面的叙述,要选择样本空间Ω 的一个划分R1 和R2=Ω-R1,使得平均误判损失ECM 达到极小.定理8.3.1 极小化平均误判损失式的区域R1 和R2 为说明:当时,即x 为边界点,它可以归入R1 和R2中的任何一个,为了方便就将它归入R1.根据定理8.3.1,得到两总体的Bayes判别准则:应用此准则时仅需要计算:新样本点x0=(x01,x02,…......
2023-11-18
在实验2.3.2中对iris数据集进行了描述和展示,以下对iris数据集进行可视化.花萼长度、花萼宽度、花瓣长度、花瓣宽度的小提琴图小提琴图是箱线图的变种,因为形状酷似小提琴而得名.小提琴图是将箱线图与核密度图结合在一起,它在箱线图上以镜像方式叠加上核密度图.绘制小提琴图,可以使用vioplot包中的“vioplot( )”函数,但在第一次使用之前请先安装vioplot包.“vioplot( )”函数的调用格式为:vioplot(x1,x2,…......
2023-11-18
,F5 的线性组合表示出来Xi=μi+ai1 F1+ai2 F2+…,F5 的值却是未知的,有关参数的意义也有很大的差异.因子分析的首要任务就是估计因子载荷aij 和方差σ2i,然后给因子Fi 一个合理的解释,若难以进行合理的解释,则需要进一步作因子旋转,希望旋转后能发现比较合理的解释.特别需要说明的是这里的因子和试验设计里的因子(或因素)是不同的,它比较抽象和概括,往往是不可以单独测量的.......
2023-11-18
多元统计分析是统计学中应用性很强的一个分支,它的应用范围十分广泛.多元统计分析可以应用于几乎所有的领域,主要包括经济学、农业、地质学、医学、工业、气象学、金融、精算、物理学、地理学、军事科学、文学、法律、环境科学、考古学、体育科学、遗传学、教育学、生物学、管理科学、水文学等,还有一些交叉学科或方向等.多元统计分析的应用实在是难以一一罗列,以下简要地介绍一下多元统计分析在文学、数据挖掘(作为交叉学科......
2023-11-18
在实验4.4.1中曾对R 自带的stackloss数据集进行了逐步回归,现在我们在实验4.4.1的基础上进行回归诊断.(1)画回归诊断图>opar<-par(mfrow=c(2,2))>plot(lm.step,1:4)>par(opar)结果如图4-2所示.图4-2回归诊断图分析4张回归诊断图(图4-2).第1张是残差图,得到的残差图呈喇叭口形状,属于异方差情况(这样的数据需要作Box-Cox......
2023-11-18
相关推荐