首页 理论教育如何在应用多元统计分析中选择变量?

如何在应用多元统计分析中选择变量?

【摘要】:,Xp 之间并不是完全独立的,而是有一定的相关性存在的.如果回归模型中有某两个自变量Xi 和Xj 的相关系数比较大,就可使正规方程组的系数矩阵出现病态,也就是所谓的多重共线性的问题,将导致回归系数的估计值的精度不高.因此,适当地选择变量以建立一个“最优”的回归方程是十分重要的.那么什么是“最优”回归方程呢?

在实际问题中,影响变量Y 的因素有很多,我们只能挑选若干个变量建立回归方程,这就涉及变量的选择问题.

一般来说,如果在一个回归方程中忽略了对因变量Y 有显著影响的自变量,那么所建立的回归方程必与实际有较大的偏离,但变量选得过多,使用就不方便.

在前面我们讨论一般多元线性回归方程的求法中,细心的读者也许会注意到,在那里不管自变量Xi 对因变量Y 的影响是否显著,均可进入回归方程.特别地,当回归方程中含有对因变量Y 影响不大的变量时,可能因为SSE自由度变小,而使误差的方差增大,就会导致估计的精度变低.另外,在许多实际问题中,往往自变量X1,X2,…,Xp 之间并不是完全独立的,而是有一定的相关性存在的.如果回归模型中有某两个自变量Xi 和Xj相关系数比较大,就可使正规方程组的系数矩阵出现病态,也就是所谓的多重共线性的问题,将导致回归系数的估计值的精度不高.因此,适当地选择变量以建立一个“最优”的回归方程是十分重要的.(www.chuimin.cn)

那么什么是“最优”回归方程呢?对这个问题有许多不同的准则,在不同准则下“最优”回归方程也可能不同.这里的“最优”是指从可供选择的所有变量中选出对因变量Y 有显著影响的自变量建立方程,并且在方程中不含对Y 无显著影响的自变量.

在上述意义下,可以有多种方法来获得“最优”回归方程,如前进法、后退法、逐步回归法等.其中逐步回归法使用较为普遍.