首页 理论教育回归分析与state.x77数据集

回归分析与state.x77数据集

【摘要】:R 中自带的state.x77数据集包括Population(人口),Income(收入),Murder(犯罪率),Frost(结霜天数),Illiteracy(文盲率),Area(土地面积),Life.Exp(预期寿命)及HS Grad(高中毕业率)8个变量.以下我们考虑(美国各州的)Murder(犯罪率)与一些因素的关系,这些因素主要包括:Population(人口),Income(收入),I

R 中自带的state.x77数据集包括Population(人口),Income(收入),Murder(犯罪率),Frost(结霜天数),Illiteracy(文盲率),Area(土地面积),Life.Exp(预期寿命)及HS Grad(高中毕业率)8个变量

以下我们考虑(美国各州的)Murder(犯罪率)与一些因素的关系,这些因素主要包括:Population(人口),Income(收入),Illiteracy(文盲率),Frost(结霜天数)等.

(1)为了用函数“lm( )”进行回归,根据state.x77数据集建立一个数据框

states<-as.data.frame(state.x77[,c("Murder","Population","Illiteracy","Income","Frost")])

(2)为了进行回归,先计算变量之间的相关系数

用“cor( )函数”计算两个变量之间的相关系数.

>cor(states)

结果如下:

(3)以下画散布图矩阵

car包中“scatterplotMatrix( )”函数能生成散布图矩阵.

>library(car)

>scatterplotMatrix(states,spreed=FALSE,lty.smooth=2,

+main="Scat ter plot matrix")(www.chuimin.cn)

结果如图3-5所示.

图3-5包括线性、平滑曲线以及相应的边际分布(核密度和轴须图).

说明:在上述代码中,“spreed=FALSE”选项删除了残差正负均方根在平滑曲线的展开和非对称信息,“lty.smooth=2”选项设置平滑拟合曲线为虚线.

图3-5 散布图矩阵

(4)进行多元线性回归

>fit<-lm(MurderPopulation+Illiteracy+Income+Frost,data=states)

>summary(fit)

结果如下:

从以上结果可以看出,Illiteracy(文盲率)的系数在p<0.01水平下显著不为零,Frost(结霜天数)则没有显著不为零(p=0.9541).

看来以上4个自变量都进入回归方程,其显著性检验不能通过(进一步讨论,见后一章的实验4.4.3).