首页 理论教育气象经济学:Logistic回归与因子分析

气象经济学:Logistic回归与因子分析

【摘要】:和其他多元回归方法一样,Logistic回归模型对多重共线性敏感,当变量之间相关程度较高时,样本的较小变化将会带来系数估计的较大变化,从而降低模型的精度。这样,通过进一步把原始观测变量的信息转换成这些因子的因子值,然后根据其贡献选出若干公因子变量来替代原来的观测变量进行Logistic回归。

多元线性回归分析应用广泛,已成为标准的统计工具。但是多元线性回归中的某些统计假设非常关键,违反它将导致相当不合理的评估。例如,在交通活动中涉及大量决策、行为或者意愿,需要研究哪些重要因素会影响这些决策或行动,这时模型的变量是定性的或者是作为定性观测的,再使用多元线性回归分析便不可避免地违反其许多重要假设条件,导致回归估计的推断存在严重误差(郭志刚2004)。因此,本节研究中采用Logistic回归模型,其适用于这种情况的研究,而且以往的研究也证明Logistic回归的预测效果优于多元回归分析。

Logistic回归模型是对二分类因变量(即y=1或y=0)进行回归分析时使用最普遍的多元量化统计分析方法,又称增长函数,美国学者Pearl等在人口估计和预测中推广应用,并引起广泛注意(Shryock等1976)。通过Logistic模型将问题转化为根据样本数据使用最大似然估计法估计出各参数值,经过一定的数学推导运算,可求得响应变量取某个值的概率,即根据气象要素计算其在一定时间内影响公路交通事故的概率。当计算求出的概率大于某一设定值,就可以判断该公路交通气象安全指数的不同等级。Logistic回归模型的数学表达式为

可等价地表示为:

式中y=(1,0)表示某一事件发生的起数,y=1表示发生,y=0表示不发生;p=P(y=1)表示事件发生的概率;ai为待估参数;Fi自变量;i=1,…,n。

Logistic回归方程求解参数是采用最大似然估计法估计出来的,因此要通过似然函数值对其回归方程进行整体检验,即其表达的是一种概率,是在假设拟合模型为真实情况时能够观察到这一特定样本数据的概率,因此所求的函数值处于[0,1]之间(Varela 2003)。和其他多元回归方法一样,Logistic回归模型对多重共线性敏感,当变量之间相关程度较高时,样本的较小变化将会带来系数估计的较大变化,从而降低模型的精度。而各项气象要素,如平均温度、平均地面温度、最高最低温度,或同一天中不同时次的能见度值,它们之间的相关程度往往较高。为了有效消除变量之间的多重共线性影响,一个简单办法是从模型中删除某些变量,但这样又会损失较多的气象信息。为此,研究中将首先对气象指标进行因子分析。黄嘉佑等(2000)提出用主分量逐步筛选因子典型相关分析做短期气候的预测方法,结果表明通过物理因子提取和分析可在预测中产生一定的效果。

因子分析就是研究如何以最少的信息丢失把众多的观测变量浓缩为少数几个公因子的一种多元统计方法,其作用主要有两方面:第一是寻求基本结构,通过找到较少的几个公因子,既能代表数据的基本结构,又能反映信息的本质特征;第二是数据降维简化,同时有效克服多重共线性问题。这样,通过进一步把原始观测变量的信息转换成这些因子的因子值,然后根据其贡献选出若干公因子变量来替代原来的观测变量进行Logistic回归。