首页 理论教育回归方程显著性检验:应用基于R的多元统计分析

回归方程显著性检验:应用基于R的多元统计分析

【摘要】:,n)总的分散程度,对SST 进行分解,得到其中,.可以证明,,由此得其中,.SSR 叫做回归平方和,由于所以SSR 是回归值 的离差平方和,它反映了yi(i=1,2,…

前面用最小二乘法给出了回归参数的最小二乘估计,并由此给出了回归方程.但回归方程并没有事先假定Y 与X 一定存在线性关系,如果Y 与X 不存在线性关系,那么得到的回归方程就毫无意义.因此,需要对回归方程进行检验.

所谓对一元回归方程进行检验,就等价于检验

H0:b=0,H1:b ≠0.

关于以上检验问题的方法,常用的有F 检验法、t 检验法和相关系数检验法.可以证明,F 检验法、t检验法和相关系数检验法本质上都是相同的.

以下首先介绍t检验法,其次介绍平方和的分解,然后介绍F 检验法,再然后介绍判定系数(或决定系数),最后介绍估计标准误差

(1)t检验法

可以证明

对于给定的显著性水平α,拒绝域为.这种检验法称为t检验法.

在使用有关软件计算时,软件并不计算相应的拒绝域,而是计算相应分布的p值.p 值本质上是犯第一类错误的概率,即拒绝原假设而原假设为真的概率.因此,给一个指定的α 值(通常α=0.05),当p<α 时,就拒绝原假设;否则,不能拒绝原假设(“冒一定的风险”接受原假设).

(2)平方和的分解

为了寻找检验H0 的方法,将X 对Y 的线性影响与随机波动引起的变差分开.对一个具体的观测值来说,变差的大小可以用实际观测值y 与其均值之差y-来表示,而n 次观测值的总变差可由这些离差的平方和来表示.,称它为观测值y1,y2,…,yn 的离差平方和或总平方和(total sum of squares).

SST 反映了观测值yi(i=1,2,…,n)总的分散程度,对SST 进行分解,得到

其中,

可以证明,,由此得

其中,.(www.chuimin.cn)

SSR 叫做回归平方和(regression sum of squares),由于

所以SSR 是回归值 的离差平方和,它反映了yi(i=1,2,…,n)的分散程度,这种分散程度是由于Y 与X 之间线性关系引起的.SSE 叫做残差平方和(residual sum of squares),它反映了yi 与回归值的偏离程度,它是X 对Y 的线性影响之外的其余因素产生的误差.

(3)F 检验法

H0 成立时,可以证明

对于给定的显著性水平α,拒绝域为W={F>Fα(1,n-2)}.对于F 检验统计量的p 值,如果p<α,则拒绝H0,表明两个变量之间的线性关系显著.这种检验法称为F 检验法.

(4)判定系数(或决定系数)

回归平方和SSR 占总平方和(或离差平方和)SST 的比例称为判定系数(coefficient of determination),也称决定系数,记作R2,其计算公式为

在一元线性回归中,判定系数(或决定系数)是相关系数的平方根.判定系数(或决定系数)R2 可以用于检验回归直线对数据的拟合程度.如果所有观测点都落在回归直线上,则残差平方和SSE=0,此时SST=SSR,于是R2=1,拟合是完全的;如果Y 的变化与X 无关,此时,则R2=0.可见R2 ∈[0,1].R2 越接近1,回归直线的拟合程度越好;R2 越接近0,回归直线的拟合程度越差.

在R 软件中,用Multiple R-squared表示判定系数(或决定系数).

(5)估计标准误差

估计标准误差(standard error of estimate)是残差平方和SSE 的均方根,即残差的标准差,用se 来表示,其计算公式为

其中,p 为自变量的个数,在一元线性回归中(p=1),n-p-1=n-2.

se 反映了用回归方程预测因变量时产生的预测误差的大小,因此它从另一个角度说明了回归直线的拟合程度.

在R 软件中,用“Residual standard error”表示(剩余)标准误差.