【主要内容】1.随机变量协方差的定义与性质设(X,Y)是二维随机变量.如果E[(X-EX)(Y-EY)]存在,则称Cov(X,Y)=E[(X-EX)(Y-EY)]为X与Y的协方差.协方差有以下性质:设X,X1,X2,Y是随机变量,则(1)Cov(X,Y)=Cov(Y,X);(2)Cov(X,c)=0(其中c是常数);(3)Cov(c1X,c2Y)=c1c2Cov(X,Y)(其中,c1,c2是常数)......
2023-10-27
1.方差
前面已经介绍过,希望投影后的投影值尽可能分散,而这种分散程度可以用数学上的方差来表述。此处,一个字段的方差可以看做是每个元素与字段均值的差的平方再求均值,即
由于上面已经将每个字段的均值都化为0了,因此方差可以直接用每个元素的平方和除以元素个数表示:
于是上面的问题可形式化表述为:寻找一个一维基,使所有数据变换为这个基上的坐标表示后,方差值最大。
2.协方差
对于上面二维降成一维的问题来说,找到那个使方差最大的方向就可以了。不过对于更高维,还有一个问题需要解决,即考虑三维降到二维问题。与之前相同,首先希望找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择;然后选择第二个投影方向。
如果我们还是单纯只选择方差最大的方向,很明显,这个方向与第一个方向应该“几乎重合在一起”,显然这样的维度是没有用的。因此,应该有其他约束条件。从直观上说,让两个字段尽可能表示更多的原始信息,我们是不希望它们之间存在(线性)相关性的,因为相关性意味着两个字段不是完全独立,必然存在重复表示的信息。
数学上可以用两个字段的协方差表示其相关性,由于已经让每个字段均值为0,则
由式(10.3)可以看到,在字段均值为0的情况下,两个字段的协方差简洁地表示为其内积除以元素数m。当协方差为0时,表示两个字段完全独立。为了让协方差为0,选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。
至此,我们得到了降维问题的优化目标:将一组n维向量降为k维(0<k<n),其目标是选择k个单位(模为1)正交基,使原始数据变换到这组基上后,各字段两两间协方差为0,而字段的方差则尽可能大(在正交的约束下,取最大的k个方差)。
3.协方差矩阵
上面推导出了优化目标,但是这个目标似乎不能直接作为操作指南(或者说算法),因为它只说要什么,但没有说怎么做,所以我们在此继续研究计算方案。我们看到,最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示,仔细观察发现,两者均可以表示为内积的形式,而内积又与矩阵相乘密切相关。
假设只有a和b两个字段,那么将它们按行组成矩阵X:
然后用X乘以X的转置,并乘上系数1/m,即
这个矩阵对角线上的两个元素分别是两个字段的方差,而其他元素是a和b的协方差,两者被统一到了一个矩阵。根据矩阵相乘的运算法则,这个结论很容易被推广到一般情况。
假设有m个n维数据记录,将其按列排成n×m的矩阵X,设C=1/m XXT,则C是一个对称矩阵,其对角线分别是各个字段的方差,而第i行第j列和第j行第i列元素相同,表示i和j两个字段的协方差。
4.协方差矩阵对角化
根据上述推导,我们发现要达到优化目的,等价于将协方差矩阵对角化,即除对角线外的其他元素化为0,并且在对角线上将元素按大小从上到下排列,这样就达到了优化目的。下面我们进一步看原矩阵与基变换矩阵协方差的关系。设原始数据矩阵X对应的协方差矩阵为C,而P是由一组基按行排列成的矩阵,设Y=PX,则Y为X对P做基变换后的数据。设Y的协方差矩阵为D,下面推导D与C的关系:
我们需要找到能让原始协方差矩阵对角化的P。换句话说,优化目标变成了寻找一个矩阵P,满足PCPT是一个对角矩阵,并且对角元素按从大到小依次排列,那么P的前k行就是要寻找的基,用P的前k行组成的矩阵乘以X就使得X从n维降到了k维并满足上述优化条件。
由上面的分析可知,协方差矩阵C是一个是对称矩阵,在线性代数上,实对称矩阵有以下两个非常好的性质:
(1)实对称矩阵不同特征值对应的特征向量必然正交。
(2)设特征向量λ重数为r,则必然存在r个线性无关的特征向量对应于λ,因此可以将这r个特征向量单位正交化。
由上面两条可知,一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量,设这n个特征向量为e1,e2,…,en,将其按列组成矩阵:
E=(e1e2… en)
则对协方差矩阵C有如下结论:
式中,Λ为对角矩阵,其对角元素为各特征向量对应的特征值(可能有重复)。以上结论没有给出严格的数学证明,对证明感兴趣的读者可以参考《线性代数》书籍中关于“实对称矩阵对角化”的内容。到这里,我们已经找到了需要的矩阵P:
式中,P是协方差矩阵的特征向量单位化后按行排列出的矩阵,其中每一行都是C的一个特征向量。如果设P按照Λ中特征值从大到小将特征向量从上到下排列,则用P的前k行组成的矩阵乘以原始数据矩阵X,就得到了我们需要的降维后的数据矩阵Y。
有关数据挖掘技术与应用的文章
【主要内容】1.随机变量协方差的定义与性质设(X,Y)是二维随机变量.如果E[(X-EX)(Y-EY)]存在,则称Cov(X,Y)=E[(X-EX)(Y-EY)]为X与Y的协方差.协方差有以下性质:设X,X1,X2,Y是随机变量,则(1)Cov(X,Y)=Cov(Y,X);(2)Cov(X,c)=0(其中c是常数);(3)Cov(c1X,c2Y)=c1c2Cov(X,Y)(其中,c1,c2是常数)......
2023-10-27
均方差σ和变差系数Cv,就是用来反映随机变量分布的离散程度的指标。对于均值相等的不同系列,它们的离散程度可用均方差σ来衡量。均方差σ的单位与x相同。这个比值就称为变差系数,或称离势系数及离差系数,以Cv表示,是无因次数。水文统计中多采用Cv来反映系列分布的离散程度,由样本估算总体变差系数Cv的计算公式如下:式中。图3-6Cv对密度曲线的影响图3-7Cv对频率曲线的影响......
2023-11-20
如果显著性水平:a=0.05,那么每个零假设成立的概率为:1-a=0.95。由于H01,H02和H03是相互独立的,要使这3个零假设同时成立,那么它的概率就等于(1-a)3=0.953=0.857 4。因此,当处理数超过2时,必须用方差分析(F检验)来检验各处理之间的差异是否显著,以避免犯I型错误概率的迅速增加。......
2023-11-17
最小类内方差法也称为均匀性度量法。下面以两个区域为例来分析基于多次尝试的最小类内方差法。6)挑选最小类内方差所对应的阈值,即T*为可见最小方差法是一种自动阈值选择方法,整个过程不需要人工设定其他参数。......
2023-11-24
1.矩阵相似的定义设A,B都是n阶矩阵.如果存在n阶可逆矩阵P,使得B=P-1AP,则称矩阵A与B相似,也称A与B为相似矩阵,记为A~B.2.矩阵相似的性质设A,B,C都是n阶矩阵,则有以下性质:A~A.如果A~B,则B~A.如果A~B,B~C,则A~C.如果A~B,则AT~BT,Am~Bm,λA~λB,φ~φ(其中,φ(λ)=a0+a1λ+…......
2023-10-27
用MASS包中的UScereal数据集,我们研究美国谷物中的卡路里、脂肪和糖含量是否会因为储存架位置的不同而发生变化.其中1代表底层货架,2代表中层货架,3代表顶层货架.卡路里(calories)、脂肪(fat)和糖(sugars)含量是因变量,货架是3水平(1,2,3)的自变量.(1)单因素多元方差分析在以上代码中,“cbind( )”函数将三个变量(calories,fat,sugars)合并......
2023-11-18
multcomp包中的cholesterol数据集,有50个患者均接受降低胆固醇药物治疗五种方法对患者的效果.五种方法分别是:20 mg一天一次、10 mg一天两次和5 mg一天四次,其中前三种所用药物相同,剩下的drugD 和drugE是候选药物.哪种药物疗法降低胆固醇最多?......
2023-11-18
相关推荐