在实验2.3.1中,我们对mtcars数据集进行了展示和描述.在实验2.3.3中,我们对mtcars数据集进行了可视化.现在我们对该数据集中的变量进行回归分析.(1)不考虑变量交互项对该数据集,如果把mpg(汽车每加仑公里数)作为因变量,自变量为hp(马力)和wt(汽车重量)进行回归.>fit<-lm(mpg~hp+wt,data=mtcars)>summary(fit)结果如下:得到的回归方程为......
2023-11-18
设有n 个样品,每个样品观测p 个指标,原始数据阵为
为了消除量纲或数量级的差异,经常对变量进行标准化处理,如标准化变换、极差标准化变换等,这些变换对变量和样品是不对称的.这种不对称性是导致变量和样品之间关系复杂化的主要原因.在对应分析中,采用数据的变换方法即可克服这种不对称性(假设所有数据aij>0,否则对所有数据同加一适当常数,便会满足以上要求).数据变换方法的具体步骤如下:
(1)化数据矩阵为规格化的“概率”矩阵P,令
其中,.
可以看出0≤pij ≤1,且.因而pij 可理解为数据aij 出现的“概率”,并称P 为对应矩阵.
记 可理解为第j 个变量的边缘概率(j=1,2,…,p);pi·=可理解为第i个样品的边缘概率(i=1,2,…,n).
记
则
其中,1p=(1,1,…,1)T 为元素全为1的p 维常数向量.
(2)进行数据的对应变换,令
B=(bij)n×p,
其中
这里,.(www.chuimin.cn)
式(11.2.3)就是我们从同时研究R 型和Q 型因子分析的角度导出的数据对应变换公式.
(3)计算有关矩阵,记
SR=BT B,SQ=BBT,
考虑R 型因子分析时应用SR,考虑Q 型因子分析时应用SQ.
如果把所研究的p 个变量看成一个属性变量的p 个类目,而把n 个样品看成另一个属性变量的n 个类目,这时原始数据阵A 就可以看成一张由观测得到的频数表或计数表.首先由双向频数表A 矩阵得到对应矩阵
设n>p,且rank(P)=p.以下从代数学角度由对应矩阵P 来导出数据对应变换的公式.
引理11.2.1 数据标准化矩阵
其中,Dr=diag(p1·,p2·,…,pn·),Dc=diag(p·1,p·2,…,p·p),这里diag(p1·,p2·,…,pn·)表示对角线元素为p1·,p2·,…,pn· 的对角矩阵.
因此,经过变换后所得到的新数据矩阵B,可以看成是由对应矩阵P 经过中心化和标准化后得到的矩阵.
设用于检验行与列是否不相关的χ2 统计量为
其中,表示第(i,j)单元在检验行与列两个属性变量否不相关时对总χ2 统计量的贡献,有
其中,χ2==T[tr(BT B)]=T[tr(SR)]=T[tr(SQ)],tr(SQ)表示方阵SQ 的迹.
有关应用多元统计分析:基于R的实验的文章
在实验2.3.1中,我们对mtcars数据集进行了展示和描述.在实验2.3.3中,我们对mtcars数据集进行了可视化.现在我们对该数据集中的变量进行回归分析.(1)不考虑变量交互项对该数据集,如果把mpg(汽车每加仑公里数)作为因变量,自变量为hp(马力)和wt(汽车重量)进行回归.>fit<-lm(mpg~hp+wt,data=mtcars)>summary(fit)结果如下:得到的回归方程为......
2023-11-18
多元统计分析是统计学中应用性很强的一个分支,它的应用范围十分广泛.多元统计分析可以应用于几乎所有的领域,主要包括经济学、农业、地质学、医学、工业、气象学、金融、精算、物理学、地理学、军事科学、文学、法律、环境科学、考古学、体育科学、遗传学、教育学、生物学、管理科学、水文学等,还有一些交叉学科或方向等.多元统计分析的应用实在是难以一一罗列,以下简要地介绍一下多元统计分析在文学、数据挖掘(作为交叉学科......
2023-11-18
如果是,建立变量之间的定量关系式,并用于预测或控制——回归分析.变量之间的相互关系:分析两组变量之间的相互关系——典型相关分析.多元数据的统计推断这是关于参数估计和假设检验的问题.特别是多元正态分布的均值向量和协方差矩阵的估计和假设检验等问题.多元统计分析的理论基础多元统计分析的理论基础包括多维随机向量,以及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论.......
2023-11-18
在实验2.3.2中对iris数据集进行了描述和展示,以下对iris数据集进行可视化.花萼长度、花萼宽度、花瓣长度、花瓣宽度的小提琴图小提琴图是箱线图的变种,因为形状酷似小提琴而得名.小提琴图是将箱线图与核密度图结合在一起,它在箱线图上以镜像方式叠加上核密度图.绘制小提琴图,可以使用vioplot包中的“vioplot( )”函数,但在第一次使用之前请先安装vioplot包.“vioplot( )”函数的调用格式为:vioplot(x1,x2,…......
2023-11-18
在实验2.3.1中,我们对mtcars数据集(R 自带数据集)进行了展示和描述,以下对该数据集进行可视化.(1)汽车每加仑英里数直方图>hist(mtcars$mpg,breaks=10)结果如图2-1所示.(2)按汽缸数划分的各车型车重的核密度图>par(lwd=2)>library(sm)>cyl.f<-factor(mtcars$cyl,levels=c(4,6,8),labels=c("4......
2023-11-18
,βp的线性函数.因此,对μ 作变换,则可得到下面几种分布的连接函数的形式:正态分布m(μ)=μ=∑βi xi.二项分布.Poisson分布m(μ)=lnμ=∑βi xi.上述推广体现在以下两个方面:通过一个连接函数,将响应变量的期望与解释变量建立线性关系m[E]=β0+β1 x1+β2 x2+…......
2023-11-18
根据上面的叙述,要选择样本空间Ω 的一个划分R1 和R2=Ω-R1,使得平均误判损失ECM 达到极小.定理8.3.1 极小化平均误判损失式的区域R1 和R2 为说明:当时,即x 为边界点,它可以归入R1 和R2中的任何一个,为了方便就将它归入R1.根据定理8.3.1,得到两总体的Bayes判别准则:应用此准则时仅需要计算:新样本点x0=(x01,x02,…......
2023-11-18
随着大数据、人工智能在我们日常生活的渗透,学习多元统计分析的人越来越多.“多元统计分析”课程已经被越来越多高校列为相关专业的必修课或选修课.《多元统计分析》教材的特点各有不同,有的教材侧重理论的讲述,读者需要具备较深厚的数学基础;有的教材则注重模型的应用,理论和技术细节不是重点.作者认为,对于侧重“应用”多元统计方法进行数据处理和分析的读者,重点不在于理解多元统计方法的理论证明和公式推导,而是要应......
2023-11-18
相关推荐