因子分析是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R 型和Q 型,如果研究变量的相互关系时则采用R 型因子分析;如果研究样品间相互关系时则采用Q 型因子分析.但无论是R 型或Q 型都未能很好地揭示变量和样品间的双重关系,另一方面当样品容量n 很大(如n>1 000),进行Q型因子分析时,计算n 阶方阵的特......
2023-11-18
对应分析的具体计算步骤如下:
(1)由原始数据矩阵A 出发计算对应矩阵P 和对应变换后的新数据矩阵B,计算公式见式(11.2.1)和式(11.2.3).
(2)计算行轮廓分布(或行形象分布),记
R 矩阵由A 矩阵(或对应矩阵P)的每一行除以行和得到,其目的在于消除行点(即样品点)出现“概率”不同的影响.
记N(R)={Ri,i=1,2,…,n},N(R)表示n 个行形象组成的p 维空间的点集,则点集N(R)的重心(每个样品点及pi· 为权重)为
由式(11.2.2)可知,c 是p 个列向量的边缘分布.
(3)计算列轮廓分布(或列形象分布),记
C 矩阵由A 矩阵(或对应矩阵P)的每一列除以列和得到,其目的在于消除列点(即变量点)出现“概率”不同的影响.
(4)计算总惯量和χ2 统计量,第k 个与第l 个样品间的加权平方距离(或称χ2 距离)为
我们把n 个样品点(即行点)到重心c 的加权平方距离的总和定义为行形象点集N(R)的总惯量
其中,χ2 统计量是检验行点和列点是否互不相关的检验统计量.
(5)对标准化后的新数据阵B 作奇异值分解,由式(11.2.5)知
B=U1Λm VT1,m=rank(B)≤min(n-1,p-1),
其中,,即V1,U1 分别为p×m和n×m 列正交矩阵,求B 的奇异值分解式其实是通过求SR=BT B 矩阵的特征值和标准化特征向量得到.设特征值为λ1 ≥λ2 ≥…≥λm>0相应标准化特征向量为v1,v2,…,vm.在实际应用中常按累积贡献率(www.chuimin.cn)
确定所取公共因子个数l(l≤m),B 的奇异值.以下我们仍用m 表示选定的因子个数.
(6)计算行轮廓的坐标G 和列轮廓的坐标F.令αi=(i=1,2,…,m),则
型因子分析的“因子载荷矩阵”(或列轮廓坐标)为
其中为p 阶矩阵,V1 为p×m 矩阵,有
令,则
.Q 型因子分析的“因子载荷矩阵”(或行轮廓坐标)为
其中,为n 阶矩阵,U1 为n×m 矩阵,有
常把αi 或βi(i=1,2,…,m)称为加权意义下有单位长度的特征向量.
注意:行轮廓的坐标G 和列轮廓的坐标F的定义与Q 型和R 型因子载荷矩阵稍有差别.G 的前两列包含了数据最优二维表示中的各对行点(样品点)的坐标,而F的前两列则包含了数据最优二维表示中的各对列点(变量点)的坐标.
(7)在相同二维平面上用行轮廓的坐标G 和列轮廓的坐标F(取m=2)绘制出点的平面图,也就是把n 个行点(样品点)和p 个列点(变量点)在同一个平面坐标系中绘制出来,对一组行点或一组列点,二维图中的欧氏距离与原始数据中各行(或列)轮廓之间的加权距离是相对应的.但需要注意,对应行轮廓的点与对应列轮廓的点之间没有直接的距离关系.
(8)求总惯量Q 和χ2 统计量的分解式.由式(11.2.6)可知
其中,λi(i=1,2,…,m)是BT B 的特征值,称为第i个主惯量;di= (i=1,2,…,m)是B 的奇异值.式(11.2.7)给出Q 的分解式,第i个因子(i=1,2,…,m)轴末端的惯量Qi=d2i.相应地,有
即给出总χ2 统计量的分解式.
(9)对样品点和变量点进行分类,并结合专业知识进行成因解释.
有关应用多元统计分析:基于R的实验的文章
因子分析是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R 型和Q 型,如果研究变量的相互关系时则采用R 型因子分析;如果研究样品间相互关系时则采用Q 型因子分析.但无论是R 型或Q 型都未能很好地揭示变量和样品间的双重关系,另一方面当样品容量n 很大(如n>1 000),进行Q型因子分析时,计算n 阶方阵的特......
2023-11-18
,λm 对应的特征向量,且.矩阵代数的这几个结论为我们建立了因子分析中R 型与Q 型的关系.借助以上引理11.2.2和引理11.2.3,我们从R 型因子分析出发可以直接得到Q 型因子分析的结果.由于SR 和SQ 有相同的非零特征值,而这些非零特征值又表示各个公共因子所提供的方差,因此变量空间Rp 中的第一公共因子、第二公共因子…......
2023-11-18
协方差矩阵相同设有k 个总体X1,X2,…,μk,它们有相同的协方差矩阵Σ.对于任意一个样本观测指标x=(x1,x2,…,μk 和Σ1,Σ2,…,Σk 未知时,同样可用样本来估计(同前).在R 软件中,函数“lda( )”和函数“qda( )”提供了对于数据进行线性判别分析和二次判别分析的工具.这两种函数的使用方法如下:ldaldaqdaqda在以上函数中,参数formula是因子或分组形如~x1+x2+…......
2023-11-18
对于广义线性模型,除了以上介绍的Logistic回归模型外,还有其他的模型,如Poisson模型,这里就不作详细介绍.以下简要介绍R 软件中“glm( )”关于这些模型的使用方法.Poisson分布族模型和拟Poisson分布族模型的使用方法如下:fm<-glmfm<-glm其直观意义是ln[E]=β0+β1x1+β2x2+…+βp xp,即E=exp(β0+β1 x1+β2 x2+…......
2023-11-18
,xn 是从一元总体中抽取的.一元数据的数字特征主要有:均值,方差s2=,标准差s=,等等.对于多元数据,除分析各分量的取值特征外,还要分析各分量之间的相关关系.由于多元统计分析中的符号多而杂,因此需要说明:在一元统计学中一般用大写和小写字母分别来区分随机变量及其观测值,在本书后面的章节里,由于其他复杂的符号,我们可能不再遵守此约定,请读者注意一个符号在每一章中的意义.......
2023-11-18
以下我们来讨论两个总体的距离判别,分别讨论两个总体协方差矩阵相同和不同的情况.设总体X1 和X2 的均值向量分别为μ1 和μ2,协方差矩阵分别为Σ1 和Σ2.给定一个样本x,要判断x 来自哪个总体.首先考虑两个总体X1 和X2 的协方差矩阵相同的情况,即μ1 ≠μ2,Σ1=Σ2=Σ.要判断x 来自哪个总体,需要计算x 到总体X1 和X2 的马氏距离的平方d2(x,X1)和d2(x,X2),然后进行......
2023-11-18
,F5 的线性组合表示出来Xi=μi+ai1 F1+ai2 F2+…,F5 的值却是未知的,有关参数的意义也有很大的差异.因子分析的首要任务就是估计因子载荷aij 和方差σ2i,然后给因子Fi 一个合理的解释,若难以进行合理的解释,则需要进一步作因子旋转,希望旋转后能发现比较合理的解释.特别需要说明的是这里的因子和试验设计里的因子(或因素)是不同的,它比较抽象和概括,往往是不可以单独测量的.......
2023-11-18
多元统计分析是统计学中应用性很强的一个分支,它的应用范围十分广泛.多元统计分析可以应用于几乎所有的领域,主要包括经济学、农业、地质学、医学、工业、气象学、金融、精算、物理学、地理学、军事科学、文学、法律、环境科学、考古学、体育科学、遗传学、教育学、生物学、管理科学、水文学等,还有一些交叉学科或方向等.多元统计分析的应用实在是难以一一罗列,以下简要地介绍一下多元统计分析在文学、数据挖掘(作为交叉学科......
2023-11-18
相关推荐