首页 理论教育生态数据分析:多元线性回归

生态数据分析:多元线性回归

【摘要】:式(7-1)就是多元线性回归的数字模型。(二)建立多元线性回归方程设y对x1,x2,…,m)称为高斯乘数,是多元线性回归分析假设检验与进一步统计分析所需要的。建立产量y与穗数x1、每穗粒数x2的二元线性回归方程。如果此回归关系是真实的,则可依据该二元线性回归方程由穗数x1、每穗粒数x2预测和控制产量y。统计学已证明,在m元线性回归分析中,离回归平方和的自由度为。

多元线性回归分析包括:根据变量与多个自变量的实际观测值建立多元线性回归方程;检验各个自变量共同对因变量线性影响的显著性;检验每个自变量对因变量线性影响的显著性;选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程等内容。

一、多元线性回归方程的建立

(一)多元线性回归的数学模型

设因变量y与自变量x1,x2,…,xm有n组实际观测值。

假定因变量y与自变量x1,x2,…,xm间存在线性关系,实际观测值yj可以表示为

其中,x1,x2,…,xm为可以观测的一般变量(或为可以观测的随机变量);y为可以观测的随机变量,随x1,x2,…,xm而变,受试验误差影响;∈j为相互独立、且都服从N(0,σ2)的随机变量。

式(7-1)就是多元线性回归的数字模型。我们可以根据y与x1,x2,…,xm的n组实际观测值对β0,β1,β2,…,βm方差σ2作出估计。

(二)建立多元线性回归方程

设y对x1,x2,…,xm的m元线性回归方程为

其中,b0,b1,b2,…,bm为根据最小二乘法(least squares method)求得的β0,β1,β2,…,βm应使实际观测值y与回归估计值的偏差平方和=(yj-b0-b1x1j-b2x2j-…-bmxmj2为最小。Q是关于b0,b1,b2,…,bm的m+1元函数。

根据多元函数求极值点的方法,令Q对b0,b1,b2,…,bm的偏导数为0

经整理得:

由方程组(7-2)的第一个方程可得

其中,

若记

并将b0=y-b1x1-…-bmxm分别代入方程组(7-2)中的后m个方程,经整理可得到关于b1,b2,…,bm的正规方程组为

解正规方程组(7-4),即得b1,b2,…,bm,于是,得到y对x1,x2,…,xm的m元线性回归方程

y对x1,x2,…,xm的m元线性回归方程的图形为m+1维空间的一个平面,称为回归平面(regression plane);b0称为回归常数项(regression constant),当x1=x2=…=xm=0时,=b0,如果x1=x2=…=xm=0在研究范围内,则b0表示y的起始值;bi(i=1,2,…,m)称为因变量y对自变量x的偏回归系数(partial regression co⁃efficient),表示当其余m-1个自变量都固定不变时,自变量xi每变化个单位,因变量y平均变化的数量,确切地说,当bi>0时,自变量xi每增加一个单位,因变量y平均增加bi个单位;当b<0时,自变量xi每增加一个单位,因变量y平均减少|bi|个单位。

若将带入式(7-5),则得

式(7-6)为y对x1,x2,…,xm的中心化形式的m元线性回归方程。

对于正规方程组(7-4),记

则正规方程组(7-4)可用矩阵形式表示为

(www.chuimin.cn)

其中,A为正规方程组的系数矩阵、b为偏回归系数矩阵(列向量)、B为常数项矩阵(列向量)。

设系数矩阵A的逆矩阵为C,即A-1=C,则

其中C矩阵的元素Cij(i、j=1,2,…,m)称为高斯乘数(Gauss multiplier),是多元线性回归分析假设检验与进一步统计分析所需要的。

关于求系数矩阵A的逆矩阵A-1的方法有多种,请参阅线性代数教材,这里不赘述。

对于矩阵方程(7-8)求解

b=A-1Bb

b=CB

关于偏回归系数b1,b2,...,bm的解可表示为

[例5]测定15块杂交稻“eD优63”的穗数(x1,万/666.7 m2)、每穗粒数(x2)和稻谷产量(y,kg/666.7 m2),结果列于表7-1。建立产量y与穗数x1、每穗粒数x2的二元线性回归方程。

表7-1 eD优63穗数x1每穗粒数x2和产量y的测定值

首先计算得

其次,将上述有关数据代入(7-4),得到关于偏回归系数b1和b2的正规方程组

采用矩阵解法求偏回归系数b1和b2的正规方程组的解。

根据式(7-4),b1、b2的解为

于是,得到产量y与穗数x1、每穗粒数x2的二元线性回归方程:

上述回归方程和偏回归系数的显著性还有待测验。如果显著,b1=24.967 9表示在每穗粒数x2固定不变时,穗数x1每增加1万/666 7 m2,产量y将平均增加24.967 9 kg/66·7 m2;b2=5.238 1表示当穗数x1固定不变时时,穗粒数x2每增加1粒,产量y将平均增加5.238 1 kg/666.7 m2。因x1=0,x2=0不在研究范围内,所以不讨论b0=-506.564 7的实际意义。

如果此回归关系是真实的,则可依据该二元线性回归方程由穗数x1、每穗粒数x2预测和控制产量y。和在一元线性回归中讨论过的一样,进行这种预测和控制一般应限定在该回归方程的自变量取值范围内,即x1在区间[17.2,2.3]内取值,x2在区间内[98.1,132.0]取值。

三、多元线性回归方程的离回归标准误

以上根据最小二乘法,使偏差平方和∑(y-2最小建立了多元线性回归方程。偏差平方和∑(y-2的大小表示了回归平面与实测点的偏离程度,因而偏差平方和又称为离回归平方和。统计学已证明,在m元线性回归分析中,离回归平方和的自由度为(n-m-1)。于是可求得离回归均方为∑(y-2/(nm-1)。 离回归均方是模型(8-1)中σ2的估计值。

离回归均方的平方根叫离回归标准误,记为Sy·123…m(或简记为s)。即

离回归标准误Sy·123…m的大小表示了回归平面与实测点的偏离程度,即回归估计值与实测值y偏离的程度,因而我们把离回归标准误Sy·123…m用来表示回归方程的偏离度。离回归标准误Sy·123…m大,表示回归方程偏离度大,离回归标准误Sy·123…m小,表示回归方程偏离度小。