首页 理论教育应用多元统计分析:基于R的典型相关数学描述

应用多元统计分析:基于R的典型相关数学描述

【摘要】:,Y为来自总体容量为n 的样本,这时协方差矩阵的无偏估计为其中,用代替Σ 并按式和式求出 和,,称 为样本的典型相关系数,称(i=1,2,…,q)为样本的典型变量.计算时也可从样本的相关系数矩阵出发求样本的典型相关系数和典型变量,将相关系数矩阵取代协方差阵,计算过程是一样的.如果复相关系数中的一个变量是一维的,那么也可以称为偏相关系数.偏相关系数是描述一个随机变量y 与多个随机变量X=(x1,x2,…

实际问题中,需要考虑两组变量之间的相关关系的问题很多,例如,考虑几种主要产品的价格(作为第一组变量)和相应这些产品的销售量(作为第二组变量)之间的相关关系;考虑投资性变量(如劳动者人数、货物周转量、生产建设投资等)与国民收入变量(如工农业国民收入、运输业国民收入、建筑业国民收入等)之间的相关关系;等等.

相关系数描述两组随机变量X=(x1,x2,…,xpT,Y=(y1,y2,…,yqT 之间的相关程度.其思想是先将每一组随机变量作线性组合,成为两个随机变量:

再研究u 与v 的相关系数.由于v,u 与投影向量ρ,γ 有关,所以ruv=ruv(ρ,γ).取在ρTΣXXρ=1和γTΣYYγ=1的条件下使ruv 达到最大的ρ,γ 作为投影向量,这样得到的相关系数为复相关系数

ruv=max ruv(ρ,γ).

将两组变量的协方差矩阵分块得

此时

因此,问题转化为在ρTΣXXρ=1 和γTΣYYγ=1 的条件下求ρTΣXYγ 的 极大值.

根据条件极值法引入Lagrange乘数,可将问题转化为求

的极大值,其中λ,ω 是Lagrange乘数.

由极值的必要条件得方程组

将上两式分别左乘ρT 与γT,则得

注意,所以λ=ω=ρTΣXYγ.

代入方程组(12.2.1)得到

左乘方程组(12.2.2)的第二式,得,所以

代入方程组(12.2.2)的第一式,得

同理可得

则有

式(12.2.4)说明λ2 既是M1 又是M2 的特征根,ρ,γ 就是其相应于M1 和M2特征向量.M1 和M2 的特征根非负,均在[0,1]上,非零特征根的个数等于min(p,q),不妨设为q.

设M1ρ=λ2ρ 的特征根排序为,其余p-q 个特征根为0,称λ1,λ2,…,λq 为典型相关系数.相应地,从M1ρ=λ2ρ 解出的特征向量为ρ(1),ρ(2),…,ρ(q),从M2γ=λ2γ 解出的特征向量为γ(1),γ(2),…,γ(q),从而可得q对线性组合(www.chuimin.cn)

ui=ρ(i)T X,vi=γ(i)T Y,i=1,2,…,q,

称每一对变量为典型变量.求典型相关系数和典型变量归结为求M1 和M2 的特征根和特征向量.

还可以证明,当i≠j 时,有

Cov(ui,uj)=Cov(ρ(i)T X,ρ(j)T X)=ρ(i)TΣXXρ(j)=0,

Cov(vi,vj)=Cov(γ(i)T Y,γ(j)T Y)=γ(i)TΣYYγ(j)=0,

表示一切典型变量都是不相关的,并且其方差为1,即

Cov(ui,uj)=δij,

Cov(vi,vj)=δij,

其中

X 与Y 的同一对典型变量ui 和vi 之间的相关系数为λi,不同对的典型变量ui 和vj(i≠j)之间不相关,也就是说协方差为0,即

当总体的均值向量μ 和协差矩阵Σ 未知时,无法求总体的典型相关系数和典型变量,因而需要给出样本的典型相关系数和典型变量.

设X(1),X(2),…,X(n),Y(1),Y(2),…,Y(n)为来自总体容量为n 的样本,这时协方差矩阵的无偏估计为

其中,用代替Σ 并按式(12.2.3)和式(12.2.4)求出,称 为样本的典型相关系数,称(i=1,2,…,q)为样本的典型变量.

计算时也可从样本的相关系数矩阵出发求样本的典型相关系数和典型变量,将相关系数矩阵取代协方差阵,计算过程是一样的.

如果复相关系数中的一个变量是一维的,那么也可以称为偏相关系数.偏相关系数是描述一个随机变量y 与多个随机变量(一组随机变量)X=(x1,x2,…,xpT 之间的关系.其思想是先将那一组随机变量作线性组合,成为一个随机变量

再研究y 与u 的相关系数.由于u 与投影向量c有关,所以ryu=ryu(c)与c有关.我们取在cTΣXX c=1的条件下使ryu 达到最大的c 作为投影向量得到的相关系数为偏相关系数

ryu=max ryu(c).

其余推导、计算过程与复相关系数类似.