如果是,建立变量之间的定量关系式,并用于预测或控制——回归分析.变量之间的相互关系:分析两组变量之间的相互关系——典型相关分析.多元数据的统计推断这是关于参数估计和假设检验的问题.特别是多元正态分布的均值向量和协方差矩阵的估计和假设检验等问题.多元统计分析的理论基础多元统计分析的理论基础包括多维随机向量,以及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论.......
2025-09-30
对于一般线性模型其基本假设是因变量y 服从正态分布,或至少y 的方差σ2为有限常数.然而在实际问题中有些观测值明显不符合这个假设.
20世纪70年代初,Wedderbum 等人在一般线性模型的基础上,对方差σ2 为有限常数的假设作了进一步推广,提出了广义线性模型(generalized linear model)的概念和拟似然函数(quasi-likelihood function)的方法,用于求解满足下列条件的线性模型:
其中,m 为连接函数m(·)组成的向量,将μ 转化为β的线性表达式;V(μ)为n×n矩阵(其每个元素均为μ 的函数),当各yi 相互独立时,V(μ)为对角矩阵.当m(μ)=μ,V(μ)=I 时,式(5.1.2)为一般线性模型.也就是说,式(5.1.2)包括了一般线性模型.
在广义线性模型中,均假设观测值具有指数族密度函数
其中,a(·),b(·),c(·)是三种函数形式.如果给定φ(散布参数,有时写作σ2),式(5.1.3)就是具有参数θ 的指数族密度函数.以正态分布为例,
把上式与式(5.1.3)比较,可知
根据样本和y 的函数可建立对数似然函数,并可导出y 的数学期望和方差.
在广义线性模型式(5.1.3)中,θ不仅是μ 的函数,还是参数β0,β1,β2,…,βp的线性函数.因此,对μ 作变换,则可得到下面几种分布的连接函数的形式:
正态分布m(μ)=μ=∑βi xi.
二项分布.(https://www.chuimin.cn)
Poisson分布m(μ)=lnμ=∑βi xi.
上述推广体现在以下两个方面:
(1)通过一个连接函数,将响应变量的期望与解释变量建立线性关系
m[E(y)]=β0+β1 x1+β2 x2+…+βp xp.
(2)通过一个误差函数,说明广义线性模型的最后一部分随机项.
广义线性模型中的常用分布族,见表5-1.
表5-1 广义线性模型中的常用分布族
在R 语言中,正态分布族的广义线性模型与线性模型是相同的.
广义线性模型函数“glm( )”的用法如下:
gm<-glm(formula,family=gaussian,data,...)
其中,formula 为公式,即要拟合的模型;family 为分布族,包括正态分布(Gaussian)、二项分布(Binomial)、泊松分布(Poisson)和伽马分布(Gamma).分布族还可以通过选项来指定使用的连接函数;data为可选择的数据框.
在广义线性模型的意义下,我们不仅知道一般线性模型是广义线性模型的一个特例,而且导出了处理频率资料的Logistic模型和处理频数资料的对数线性模型.这个重要结果还说明,虽然Logistic模型和对数线性模型都是非线性模型,即μ和β 呈非线性关系,但通过连接函数使m(μ)和β 呈线性关系,从而使我们可以用线性拟合的方法求解这类非线性模型.更有意义的是,在实际问题中数据的形式无非是计量资料、频率资料和频数资料,因此掌握了广义线性模型的思想和方法,结合有关软件,就可以用统一的方法处理各种类型的统计数据.
相关文章
如果是,建立变量之间的定量关系式,并用于预测或控制——回归分析.变量之间的相互关系:分析两组变量之间的相互关系——典型相关分析.多元数据的统计推断这是关于参数估计和假设检验的问题.特别是多元正态分布的均值向量和协方差矩阵的估计和假设检验等问题.多元统计分析的理论基础多元统计分析的理论基础包括多维随机向量,以及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论.......
2025-09-30
随着大数据、人工智能在我们日常生活的渗透,学习多元统计分析的人越来越多.“多元统计分析”课程已经被越来越多高校列为相关专业的必修课或选修课.《多元统计分析》教材的特点各有不同,有的教材侧重理论的讲述,读者需要具备较深厚的数学基础;有的教材则注重模型的应用,理论和技术细节不是重点.作者认为,对于侧重“应用”多元统计方法进行数据处理和分析的读者,重点不在于理解多元统计方法的理论证明和公式推导,而是要应......
2025-09-30
,n)总的分散程度,对SST 进行分解,得到其中,.可以证明,,由此得其中,.SSR 叫做回归平方和,由于所以SSR 是回归值 的离差平方和,它反映了yi(i=1,2,…......
2025-09-30
在实验2.3.1中,我们对mtcars数据集进行了展示和描述.在实验2.3.3中,我们对mtcars数据集进行了可视化.现在我们对该数据集中的变量进行回归分析.(1)不考虑变量交互项对该数据集,如果把mpg(汽车每加仑公里数)作为因变量,自变量为hp(马力)和wt(汽车重量)进行回归.>fit<-lm(mpg~hp+wt,data=mtcars)>summary(fit)结果如下:得到的回归方程为......
2025-09-30
在实验2.3.1中,我们对mtcars数据集(R 自带数据集)进行了展示和描述,以下对该数据集进行可视化.(1)汽车每加仑英里数直方图>hist(mtcars$mpg,breaks=10)结果如图2-1所示.(2)按汽缸数划分的各车型车重的核密度图>par(lwd=2)>library(sm)>cyl.f<-factor(mtcars$cyl,levels=c(4,6,8),labels=c("4......
2025-09-30
在实验2.3.2中对iris数据集进行了描述和展示,以下对iris数据集进行可视化.花萼长度、花萼宽度、花瓣长度、花瓣宽度的小提琴图小提琴图是箱线图的变种,因为形状酷似小提琴而得名.小提琴图是将箱线图与核密度图结合在一起,它在箱线图上以镜像方式叠加上核密度图.绘制小提琴图,可以使用vioplot包中的“vioplot( )”函数,但在第一次使用之前请先安装vioplot包.“vioplot( )”函数的调用格式为:vioplot(x1,x2,…......
2025-09-30
women数据集(R 自带数据集)提供了15个年龄在30~39岁之间女性的身高和体重的信息.(1)查看women数据集(身高和体重)的信息>women结果如下:(2)weight和height的简单线性回归>fit<-lm(weight~height,data=women)>summary(fit)结果如下:由此得到的回归方程为从以上结果可以看出,回归方程通过检验.(3)身高和体重的散点图以及回归......
2025-09-30
回归分析的基本思想和方法以及“回归”名词的由来,要归功于英国统计学家高尔顿(Galton).高尔顿和他的学生、现代统计学的奠基者之一皮尔逊(Pearson)在研究父母身高与其子女身高的遗传关系时,观察了1 078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年儿子的身高作为y,将这些数据画成散点图,发现趋势近似一条直线=33.73+0.516x(单位:英寸,1英寸=2.54 cm).这表明:......
2025-09-30
相关推荐