首页 理论教育生态数据分析与建模:直线回归分析的计算

生态数据分析与建模:直线回归分析的计算

【摘要】:直线回归是回归分析中最简单的一种,又称为简单回归。(一)直线回归方程散点图上呈现直线趋势的两个变数,自变量x的每一个取值都有y的一个分布与之对应。试计算其直线回归方程。为简化手续,可从以下恒等式得出:(五)直线回归的数学模型和基本假定回归分析的依据是直线回归模型。

直线回归是回归分析中最简单的一种,又称为简单回归。

(一)直线回归方程

散点图上呈现直线趋势的两个变数,自变量x的每一个取值都有y的一个分布与之对应。在这种情况下,可以利用直线回归方程描述两个变数之间的关系:

其中x是自变量;是和x的两相对应的点估计值;a是x=0时的值,即回归直线在y轴上的截距,叫回归截距;b是x每增加一个单位时,平均地将要增加或减少的单位数,叫回归系数。

使得=a+bx最好地代表y和x在数量上的互变关系,根据最小二乘法:

因此,分别对a和b求偏导数并令其为0,即可得到正规方程组

分子是x的离均差和y的离均差的乘积之和,简称乘积和(sum ofproducts),记作SP;分母是x的离均差平方和,记作SSx。将(6-2)式、(6-3)式算得的a和b值代入(6-1),即可保证为最小,同时使∑(y-)=0。

a和b值皆可正可负,随具体资料而异。当a>0时,表示回归直线在I、II象限交于y轴;当a<0时,表示回归直线在Ⅲ、V象限交于y轴;当b>0时,表示y随x的增大而增大;当b<0时,表示y随x的増大而减小。若b=0或和0的差异不显著,则表明y的变异和x的取值大小无关,直线回归关系不能成立。

以上是a和b值的统计学解释。在具体问题中,a和b值将有专业上的实际意义。

将(6-2)式代入(6-1)式可得:

由(6-4)式可见,当x=时,必有,所以回归直线一定通过坐标点。记住这一特性,有助于绘制具体资料的回归直线。

由(6-4)式还可看出:①当x以离均差为单位时,回归直线的位置仅决定于和b;②当将坐标轴平移到以为原点时,回归直线的走向仅决定于b,所以一般又称b为回归斜率(regression slope)

图6-1 直线回归方程=a+bx的图

(二)直线回归方程的计算

以一个实例说明回归统计数计算的过程。

[例1]一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬·度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表6-1。试计算其直线回归方程。

表6-1 累积温和一代三化螟盛发期的关系

首先由表6-1算得回归分析所必需的6个一级数据(即由观察值直接算得的数据),

n=9

∑x=35.5+34.1+...+44.2=333.7

∑x2=35.52+34.12+...+44.22=12 517.49

∑y=12+16+...+(-1)=70

∗∑y2=122+162+...+(-1)2=794

∑xy=(35.5×12)+(34.1×16)+...+[44.2×(-1)]=2 346.4然后,由一级数据算得5个二级数据:

SSx=∑x2-(∑x)2/n=12 517.49-(333.7)2/9=144.635 6

∗SSy=∑y2-(∑y)2/n=794-(70)2/9=249.555 6(www.chuimin.cn)

SP=∑xy-∑x∑y/n=2436.4-(333.7X70)/9=-159.044 4

=∑x/n=333.7/9=37.077 8

=∑y/n=70/9=7.777 8

因而有:b=SP/SSx=-159.044 4/144.635 6=-1.099 6[天/(旬·度)]

a==7.777 8-(-1.099 6×37.077 8)=48.548 5(天)

故得到表6-1资料的回归方程:=48.548 5-1.099 6x或化简成:=48.5-1.1x

(三)直线回归方程的图示

直线回归图包括回归直线的图象和散点图,它可以醒目地表示x和y的数量关系。

制作直线回归图时,首先以x为横坐标,以y为纵坐标构建直角坐标系(纵、横坐标皆需标明名称和单位);然后取x坐标上的一个小值x1代入回归方程得,取一个大值x2代入回归方程得,连接坐标点(x1)和(x2)即成一条回归直线。如例6-1资料,以x1=31.7代入回归方程得=13.69;以x2=44.2代入回归方程得=-0.05。在图6-2上确定(31.7,13.69)和(44.2,-0.05)这两个点,再连接之,即为=48.5485-1.099 6x的直线图象。注意:此直线必通过点,它可作为制图是否正确的核对。最后,将实测的各对(xi,yi)数值也用坐标点标于图6-2上。

图6-2的回归直线是9个观察坐标点的代表,它不仅表示了表6-1资料的基本趋势,也便于预测。如某年3月下旬至4月中旬的积温为40旬·度,则在图6-2上可查到一代三化螟盛发期的点估计值在5月14日-15日,这和将x=40代人原方程得到=48.548 5-(1.099 6×40)=4.6是一致的。因为回归直线是综合9年结果而得出的一般趋势,所以其代表性比任何一个实际的坐标点都好。

图6-2 旬平均温度累积值和一代三化螟盛发期的关系

(四)直线回归的估计标准误

由图6-2可见,满足Q=∑(y-2为最小的直线回归方程和实测的观察点并不重合,表明该回归方程仍然存在随机误差。Q就是误差的一种度代三化螟盛发期的关系量,称之为离回归平方和(sum of squares due to deviation from regres⁃sion)或剩余平方和。由于在建立回归方程时用了a和b两个统计数,故Q的自由度v=n-2。因而,可定义回归方程的估计标准误Sy/x为:

若各个观察点愈靠近回归线,将愈小(极端地说,当各观察点都落在回归线上时,若各观察点在回归线上下分散得愈远,则Sy/x愈大。故样本的Sy/x是回归精确度的度量,Sy/x愈小,由回归方程估计y的精确性愈高。

计算Sy/x的主要手续在于求Q。直接计算不仅步骤多、工作量大,而且若数字保留位数不够,会引起较大的计算误差。为简化手续,可从以下恒等式得出:

(五)直线回归的数学模型和基本假定

回归分析的依据是直线回归模型。在这一模型中,Y总体的每一个值由以下三部分组成:回归截距α;回归系数β;Y变数的随机误差ε。因此,总体直线回归的数学模型可表示为:

其中εj~N(0,)。相应的样本线性组成为:

在按上述模型进行回归分析时,假定:

(1)Y变数是随机变数,而X变数则是没有误差的固定变数,至少和Y变数比较起来X的误差小到可以忽略。

(2)在任一X上都存在着一个Y总体(可称为条件总体),它是作正态分布的,其平均数μY/X是X的线性函数:

μY/X的样本估计值与X的关系就是线性回归方程(6-1)式。

(3)所有的Y总体都具有共同的方差,这一方差不因X的不同而不同,而直线回归总体具有N(α+βX,)。试验所得的一组观察值(xi,yi)只是N(α+βX,)中的一个随机样本。

(4)随机误差ε相互独立,并作正态分布,具有N(0,)。

因此,模型中的参数共有a,即直线的截距;β,即直线的斜率;,误差的方差。其样本的相应估计值为a、b和

理解上述模型和假定,有助于正确地进行回归分析。