首页 理论教育生态数据分析与建模:回归分析问题与原因

生态数据分析与建模:回归分析问题与原因

【摘要】:在多数生态学文献中,回归分析方面的问题是所有应用统计学中出现频率最高的问题。R2实际上是一个相对的度量,它表示回归平方和占总平方和的百分比。

在多数生态学文献中,回归分析方面的问题是所有应用统计学中出现频率最高的问题。主要表现在以下几个方面。

一、直线回归问题

(一)用R2(相关指数)来描述直线回归的显著性

直线回归分析又称为一元线性回归分析,是回归分析中方法最简单,应用最广泛的方法。在某些生态学论文中,对于回归方程的检验和表述不正确,常用相关指数R2来刻画回归方程的显著性。需要指出的是,相关指数R2是用来刻画曲线回归方程拟合程度的重要指标,并非检验直线回归方程是否显著的统计量。尽管对于直线回归方程有R2=r2,但应用R2来表示直线回归方程的显著性显然是不恰当的。

对于直线回归方程(=a+bX)的显著性检验,包括回归方程的方差分析,回归系数a、b的显著性检验(t-检验)和相关系数(r)的显著性检验等,在本质上,这3种显著性检验方法是等价的,亦即回归方程显著(p<0.05)⇔回归系数显著⇔相关系数(r)显著。

产生这一错误的主要原因是:(1)作者没有弄清楚直线回归分析与曲线回归分析的最根本区别是什么。(2)更常见的错误来源于对微软Office缺乏客观的认知。作为Ofice(Microsoft)主要组成部分的Excel(或Word),在应用它进行图表编辑的时候可以对数据添加趋势线和回归方程,对回归方程的显著性用了R2来表示。许多作者想当然认为Microsoft的软件肯定不会有问题,所以这些错误屡见不鲜。

(二)回归关系与函数关系的问题

对直线回归方程的准确表达式为:=a+bx,但是几乎所有的生态学文献中,回归方程都写为:Y=a+bX,比较这两个回归方程区别在于前者Y︿上边有“^”(读作“帽(Hat)”在统计学中表示“估计”(Esimate)的意思),而后者没有“^”。因为有“^”的存在,就意味着它有误差,那么自变量因变量之间就是回归方程(关系)。如果没有“^”,那变量之间就是的数关系,而非回归(或相关)关系。许多作者没有意识到这一细微的差别,在数学上具有根本不同的意义,类似的问题在曲线回归和多元回归分析中也普遍存在。

二、曲线回归问题

曲线回归问题主要集中在曲线回归方程的检验问题,往往用相关系数r来表示方程的显著性。(www.chuimin.cn)

统计学上,对于曲线回归问题往往是将对应的曲线模型转化为线性模型,然后按照直线回归的方法求出回归方程。在直线回归中,既可以用相关系数对回归方程进行显著性检验,也可以用方差分析和t-检验的方法分别对方程和回归系数进行显著性检验。

许多作者仍然不清楚,迄今为止对于曲线回归方程仍然没有显著性检验的方法,只能对曲线回归方程的拟合程度进行判断。常用的方法有剩余(失拟)平方和SSe

式(9-1)中Y为实际观测值,为回归值。一般来说,SSe越小表明曲线回归方程的拟合程度就越好,反之亦然。

SSe是对曲线回归方程失拟程度的绝对度量,但是对于不同的曲线回归方程,用SSe难以比较它们拟合程度的优劣。因此,采用相关指数更为合理和方便。相关指数的定义为:

式(9-2)中SYY为因变量Y的离差平方和。R2实际上是一个相对的度量,它表示回归平方和占总平方和的百分比。R2越大表明曲线回归方程的拟合程度就越好,反之亦然。

三、多元线性回归方面的问题

在多元线性回归分析中常见的错误是,只对回归方程进行显著性检验,而没有对每一个回归系数进行显著性检验。

多元线性回归方程一般形式如下:

式(9-3)中bo+b1…+bk是回归系数:X1,X2,…,Xk分别是自变量。对于方程(9-3)必须进行显著性检验,以便确定Y与X,X2,X3,…之间是否存在线性关系。如果方程(9-3)显著(p<0.05)并不意味着每个自变量X,X2,X3,…对Y的影响都重要,可能有的自变量重要(p<0.05),而有的自变量则可有可无(p>0.05),因此在对方程进行显著性检验的基础上,就必须对所有回归系数进行显著性检验。对于那些不显著的回归系数bi,其对应的自变量Xi要从方程中剔除,以确保每个回归系数都显著。