首页 理论教育应用多元统计分析中对应分析的计算步骤

应用多元统计分析中对应分析的计算步骤

【摘要】:对应分析的具体计算步骤如下:由原始数据矩阵A 出发计算对应矩阵P 和对应变换后的新数据矩阵B,计算公式见式和式.计算行轮廓分布,记R 矩阵由A 矩阵的每一行除以行和得到,其目的在于消除行点出现“概率”不同的影响.记N={Ri,i=1,2,…,m)是B 的奇异值.式给出Q 的分解式,第i个因子(i=1,2,…

对应分析的具体计算步骤如下:

(1)由原始数据矩阵A 出发计算对应矩阵P 和对应变换后的新数据矩阵B,计算公式见式(11.2.1)和式(11.2.3).

(2)计算行轮廓分布(或行形象分布),记

R 矩阵由A 矩阵(或对应矩阵P)的每一行除以行和得到,其目的在于消除行点(即样品点)出现“概率”不同的影响.

记N(R)={Ri,i=1,2,…,n},N(R)表示n 个行形象组成的p 维空间的点集,则点集N(R)的重心(每个样品点及p权重)为

由式(11.2.2)可知,c 是p 个列向量的边缘分布.

(3)计算列轮廓分布(或列形象分布),记

C 矩阵由A 矩阵(或对应矩阵P)的每一列除以列和得到,其目的在于消除列点(即变量点)出现“概率”不同的影响.

(4)计算总惯量和χ2 统计量,第k 个与第l 个样品间的加权平方距离(或称χ2 距离)为

我们把n 个样品点(即行点)到重心c 的加权平方距离的总和定义为行形象点集N(R)的总惯量

其中,χ2 统计量是检验行点和列点是否互不相关的检验统计量.

(5)对标准化后的新数据阵B 作奇异值分解,由式(11.2.5)知

B=U1Λm VT1,m=rank(B)≤min(n-1,p-1),

其中,,即V1,U1 分别为p×m和n×m 列正交矩阵,求B 的奇异值分解式其实是通过求SR=BT B 矩阵的特征值和标准化特征向量得到.设特征值为λ1 ≥λ2 ≥…≥λm>0相应标准化特征向量为v1,v2,…,vm.在实际应用中常按累积贡献率(www.chuimin.cn)

确定所取公共因子个数l(l≤m),B 的奇异值.以下我们仍用m 表示选定的因子个数.

(6)计算行轮廓的坐标G 和列轮廓的坐标F.令αi(i=1,2,…,m),则因子分析的“因子载荷矩阵”(或列轮廓坐标)为

其中为p 阶矩阵,V1 为p×m 矩阵,有

,则.Q 型因子分析的“因子载荷矩阵”(或行轮廓坐标)为

其中,为n 阶矩阵,U1 为n×m 矩阵,有

常把αi 或βi(i=1,2,…,m)称为加权意义下有单位长度的特征向量.

注意:行轮廓的坐标G 和列轮廓的坐标F的定义与Q 型和R 型因子载荷矩阵稍有差别.G 的前两列包含了数据最优二维表示中的各对行点(样品点)的坐标,而F的前两列则包含了数据最优二维表示中的各对列点(变量点)的坐标.

(7)在相同二维平面上用行轮廓的坐标G 和列轮廓的坐标F(取m=2)绘制出点的平面图,也就是把n 个行点(样品点)和p 个列点(变量点)在同一个平面坐标系中绘制出来,对一组行点或一组列点,二维图中的欧氏距离与原始数据中各行(或列)轮廓之间的加权距离是相对应的.但需要注意,对应行轮廓的点与对应列轮廓的点之间没有直接的距离关系.

(8)求总惯量Q 和χ2 统计量的分解式.由式(11.2.6)可知

其中,λi(i=1,2,…,m)是BT B 的特征值,称为第i个主惯量;di (i=1,2,…,m)是B 的奇异值.式(11.2.7)给出Q 的分解式,第i个因子(i=1,2,…,m)轴末端的惯量Qi=d2i.相应地,有

即给出总χ2 统计量的分解式.

(9)对样品点和变量点进行分类,并结合专业知识进行成因解释.