首页 理论教育广义线性模型概述:应用多元统计分析基于R实验

广义线性模型概述:应用多元统计分析基于R实验

【摘要】:,βp的线性函数.因此,对μ 作变换,则可得到下面几种分布的连接函数的形式:正态分布m(μ)=μ=∑βi xi.二项分布.Poisson分布m(μ)=lnμ=∑βi xi.上述推广体现在以下两个方面:通过一个连接函数,将响应变量的期望与解释变量建立线性关系m[E]=β0+β1 x1+β2 x2+…

对于一般线性模型其基本假设是变量y 服从正态分布,或至少y 的方差σ2为有限常数.然而在实际问题中有些观测值明显不符合这个假设.

20世纪70年代初,Wedderbum 等人在一般线性模型的基础上,对方差σ2 为有限常数的假设作了进一步推广,提出了广义线性模型(generalized linear model)的概念和拟似然函数(quasi-likelihood function)的方法,用于求解满足下列条件的线性模型:

其中,m 为连接函数m(·)组成的向量,将μ 转化为β的线性表达式;V(μ)为n×n矩阵(其每个元素均为μ 的函数),当各yi 相互独立时,V(μ)为对角矩阵.当m(μ)=μ,V(μ)=I 时,式(5.1.2)为一般线性模型.也就是说,式(5.1.2)包括了一般线性模型.

在广义线性模型中,均假设观测值具有指数族密度函数

其中,a(·),b(·),c(·)是三种函数形式.如果给定φ(散布参数,有时写作σ2),式(5.1.3)就是具有参数θ 的指数族密度函数.以正态分布为例,

把上式与式(5.1.3)比较,可知

根据样本和y 的函数可建立对数似然函数,并可导出y 的数学期望和方差.

在广义线性模型式(5.1.3)中,θ不仅是μ 的函数,还是参数β0,β1,β2,…,βp的线性函数.因此,对μ 作变换,则可得到下面几种分布的连接函数的形式:

正态分布m(μ)=μ=∑βi xi

二项分布.(www.chuimin.cn)

Poisson分布m(μ)=lnμ=∑βi xi

上述推广体现在以下两个方面:

(1)通过一个连接函数,将响应变量的期望与解释变量建立线性关系

m[E(y)]=β0+β1 x1+β2 x2+…+βp xp

(2)通过一个误差函数,说明广义线性模型的最后一部分随机项.

广义线性模型中的常用分布族,见表5-1.

表5-1 广义线性模型中的常用分布族

在R 语言中,正态分布族的广义线性模型与线性模型是相同的.

广义线性模型函数“glm( )”的用法如下:

gm<-glm(formula,family=gaussian,data,...)

其中,formula 为公式,即要拟合的模型;family 为分布族,包括正态分布(Gaussian)、二项分布(Binomial)、泊松分布(Poisson)和伽马分布(Gamma).分布族还可以通过选项来指定使用的连接函数;data为可选择的数据框.

在广义线性模型的意义下,我们不仅知道一般线性模型是广义线性模型的一个特例,而且导出了处理频率资料的Logistic模型和处理频数资料的对数线性模型.这个重要结果还说明,虽然Logistic模型和对数线性模型都是非线性模型,即μ和β 呈非线性关系,但通过连接函数使m(μ)和β 呈线性关系,从而使我们可以用线性拟合的方法求解这类非线性模型.更有意义的是,在实际问题中数据的形式无非是计量资料、频率资料和频数资料,因此掌握了广义线性模型的思想和方法,结合有关软件,就可以用统一的方法处理各种类型的统计数据.