,Xp 之间并不是完全独立的,而是有一定的相关性存在的.如果回归模型中有某两个自变量Xi 和Xj 的相关系数比较大,就可使正规方程组的系数矩阵出现病态,也就是所谓的多重共线性的问题,将导致回归系数的估计值的精度不高.因此,适当地选择变量以建立一个“最优”的回归方程是十分重要的.那么什么是“最优”回归方程呢?......
2025-09-30
将原始数据矩阵A 变换为B 矩阵后,记SR=BT B,SQ=BBT,SR 和SQ 这两个矩阵存在明显的简单的对应关系,而且将原始数据aij 变换为bij 后,bij 关于i,j 是对等的,即bij 对变量和样品是对等的.
为了进一步研究R 型与Q 型因子分析,我们利用矩阵代数的一些结论.
引理11.2.2 设SR=BT B,SQ=BBT,则SR 和SQ 的非零特征值相同.
引理11.2.3 若v是BT B 相应于特征值λ 的特征向量,则u=Bv是BBT 相应于特征值λ 的特征向量.
定义11.2.1 (矩阵的奇异值分解)设B 为n×p 矩阵,且
rank(B)=m ≤min(n-1,p-1),
BT B 的非零特征值为λ1 ≥λ2 ≥…≥λm>0,令,则称di 为B 的奇异值.
如果存在分解式(https://www.chuimin.cn)
其中,U 为n×n 正交矩阵,V 为p×p 正交矩阵,Λ=,这里Λm=diag(d1,d2,…,dm),则称分解式B=UΛVT 为矩阵B 的奇异值分解.
记U=(U1⋮U2),V=(V1⋮V2),Λm=diag(d1,d2,…,dm),其中U1 为m×n 的列正交矩阵,V1 为p×m 的列正交矩阵,则奇异值分解式(11.2.4)等价于
引理11.2.4 任意非零矩阵B 的奇异值分解必存在.
引理11.2.4的证明就是具体求出矩阵B 的奇异值分解式(高惠璇,统计计算(1995)).从证明过程中可以看出:列正交矩阵V1 的m 个列向量分别是BT B 的非零征值为λ1,λ2,…,λm 对应的特征向量;而列正交矩阵U1 的m 个列向量分别是BBT 的非零征值为λ1,λ2,…,λm 对应的特征向量,且.
矩阵代数的这几个结论为我们建立了因子分析中R 型与Q 型的关系.借助以上引理11.2.2和引理11.2.3,我们从R 型因子分析出发可以直接得到Q 型因子分析的结果.
由于SR 和SQ 有相同的非零特征值,而这些非零特征值又表示各个公共因子所提供的方差,因此变量空间Rp 中的第一公共因子、第二公共因子…,直到第m个公共因子,它们与样本空间Rp 中对应的各个公共因子在总方差中所占的百分比全部相同.
从几何的意义上看,即Rp 中诸样品点与Rp 中各因子轴的距离平方和,以及Rp 中诸变量点与Rp 中相对应的各因子轴的距离平方和是完全相同的.因此可以把变量点和样品点同时反映在同一因子轴所确定的平面上(即取同一个坐标系),根据接近程度,可以对变量点和样品点同时考虑进行分类.
相关文章
,Xp 之间并不是完全独立的,而是有一定的相关性存在的.如果回归模型中有某两个自变量Xi 和Xj 的相关系数比较大,就可使正规方程组的系数矩阵出现病态,也就是所谓的多重共线性的问题,将导致回归系数的估计值的精度不高.因此,适当地选择变量以建立一个“最优”的回归方程是十分重要的.那么什么是“最优”回归方程呢?......
2025-09-30
回归分析原理回归分析方法的基本思想是基于地形地质资料,结合对考察域地应力场产生条件的认识,建立考察域三维有限元模型,计算各种基本影响因素独立作用下的有限元模型“观测值”,并结合一定量的实测值,展开回归计算分析,从而获得模拟整个考察域初始应力场的回归方程。复相关系数可表达为其中:复相关系数r介于0与1之间,r值越接近于1,说明回归效果越好。......
2025-09-30
多元统计分析是统计学中应用性很强的一个分支,它的应用范围十分广泛.多元统计分析可以应用于几乎所有的领域,主要包括经济学、农业、地质学、医学、工业、气象学、金融、精算、物理学、地理学、军事科学、文学、法律、环境科学、考古学、体育科学、遗传学、教育学、生物学、管理科学、水文学等,还有一些交叉学科或方向等.多元统计分析的应用实在是难以一一罗列,以下简要地介绍一下多元统计分析在文学、数据挖掘(作为交叉学科......
2025-09-30
多元线性回归的数学模型可以用矩阵形式表示为1.参数β的最小二乘估计设b0,b1,…表4-1 回归正交设计计算表通过推导,可以得到方差分析表4-2。表4-2 方差分析表3.回归方程的显著性检验F>Fα 若式成立,我们可以认为在显著水平α下,线性回归方程(4-6)是有显著意义的。反之,则认为线性回归方程没有什么意义,这时需要查明原因,具体情况具体分析。......
2025-09-29
那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分.有些文献建议,所选的主轴总长度占所有主轴长度之和的大约80%即可.其实,这只是一个大体的说法;具体选几个,要看实际情况而定.但如果所有涉及的变量都不那么相关,就很难降维.不相关的变量就只有自己代表自己了.......
2025-09-30
用MASS包中的UScereal数据集,我们研究美国谷物中的卡路里、脂肪和糖含量是否会因为储存架位置的不同而发生变化.其中1代表底层货架,2代表中层货架,3代表顶层货架.卡路里(calories)、脂肪(fat)和糖(sugars)含量是因变量,货架是3水平(1,2,3)的自变量.(1)单因素多元方差分析在以上代码中,“cbind( )”函数将三个变量(calories,fat,sugars)合并......
2025-09-30
对于广义线性模型,除了以上介绍的Logistic回归模型外,还有其他的模型,如Poisson模型,这里就不作详细介绍.以下简要介绍R 软件中“glm( )”关于这些模型的使用方法.Poisson分布族模型和拟Poisson分布族模型的使用方法如下:fm<-glmfm<-glm其直观意义是ln[E]=β0+β1x1+β2x2+…+βp xp,即E=exp(β0+β1 x1+β2 x2+…......
2025-09-30
,F5 的线性组合表示出来Xi=μi+ai1 F1+ai2 F2+…,F5 的值却是未知的,有关参数的意义也有很大的差异.因子分析的首要任务就是估计因子载荷aij 和方差σ2i,然后给因子Fi 一个合理的解释,若难以进行合理的解释,则需要进一步作因子旋转,希望旋转后能发现比较合理的解释.特别需要说明的是这里的因子和试验设计里的因子(或因素)是不同的,它比较抽象和概括,往往是不可以单独测量的.......
2025-09-30
相关推荐