根据上面的叙述,要选择样本空间Ω 的一个划分R1 和R2=Ω-R1,使得平均误判损失ECM 达到极小.定理8.3.1 极小化平均误判损失式的区域R1 和R2 为说明:当时,即x 为边界点,它可以归入R1 和R2中的任何一个,为了方便就将它归入R1.根据定理8.3.1,得到两总体的Bayes判别准则:应用此准则时仅需要计算:新样本点x0=(x01,x02,…......
2023-11-18
以下我们来讨论两个总体的距离判别,分别讨论两个总体协方差矩阵相同和不同的情况.
设总体X1 和X2 的均值向量分别为μ1 和μ2,协方差矩阵分别为Σ1 和Σ2.给定一个样本x,要判断x 来自哪个总体.
首先考虑两个总体X1 和X2 的协方差矩阵相同的情况,即
μ1 ≠μ2,Σ1=Σ2=Σ.
要判断x 来自哪个总体,需要计算x 到总体X1 和X2 的马氏距离的平方d2(x,X1)和d2(x,X2),然后进行比较.若d2(x,X1)≤d2(x,X2),则判定x属于X1;否则,则判定x 属于X2.由此得到如下判别准则:
以下引进判别函数的表达式,考虑d2(x,X1)和d2(x,X2)的关系,则有
其中,为两个总体均值的平均.
令
称ω(x)为两个总体的距离判别函数.
因此,判别准则(8.1.3)变为
在实际计算中,总体的均值μ1,μ2 和协方差矩阵Σ 均未知,因此需要用样本均值和样本协方差矩阵来代替.设是来自总体X1 样本,是来自总体X2 样本,则样本均值和样本协方差矩阵分别为
其中,(www.chuimin.cn)
对于待判样本x,其判别函数定义为
其中,.其判别准则为
注意到判别函数(8.1.9)是线性函数,因此,在两个总体的协方差矩阵相同的情况下,距离判别属于线性判别,称为判别系数.从几何角度上来看,(x)=0表示一张超平面,将整个空间分成R1,R2 两个半空间.
再考虑两个总体X1 和X2 的协方差矩阵不同的情况,即
μ1 ≠μ2,Σ1 ≠Σ2.
对于样本x,在协方差矩阵不同的情况,判别函数为
与前面讨论的情况相同,在实际计算中,总体均值和协方差矩阵未知,同样需要用样本的均值和样本协方差矩阵来代替.因此,对于对于待判样本x,其判别函数定义为
其中,
其判别准则与式(8.1.10)的形式相同.
由于 和 一般不会相同,所以函数(8.1.12)是二次函数.因此,在两个总体的协方差矩阵不相同的情况下,距离判别属于二次判别.从几何角度上来看,(x)=0表示一张二次曲面.
有关应用多元统计分析:基于R的实验的文章
根据上面的叙述,要选择样本空间Ω 的一个划分R1 和R2=Ω-R1,使得平均误判损失ECM 达到极小.定理8.3.1 极小化平均误判损失式的区域R1 和R2 为说明:当时,即x 为边界点,它可以归入R1 和R2中的任何一个,为了方便就将它归入R1.根据定理8.3.1,得到两总体的Bayes判别准则:应用此准则时仅需要计算:新样本点x0=(x01,x02,…......
2023-11-18
在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化,在实验7.4.1中曾对iris数据集进行聚类分析.通过实验2.3.2对iris数据集进行描述和展示,我们知道iris数据集是对3个品种(species)鸢尾花:setosa、versicolor和virginica各抽取一个容量为50 的样本,测量其花萼长度(Sepal.Lenth)、花萼宽度(Se......
2023-11-18
,xn 是从一元总体中抽取的.一元数据的数字特征主要有:均值,方差s2=,标准差s=,等等.对于多元数据,除分析各分量的取值特征外,还要分析各分量之间的相关关系.由于多元统计分析中的符号多而杂,因此需要说明:在一元统计学中一般用大写和小写字母分别来区分随机变量及其观测值,在本书后面的章节里,由于其他复杂的符号,我们可能不再遵守此约定,请读者注意一个符号在每一章中的意义.......
2023-11-18
因子分析是用少数几个公共因子去提取研究对象的绝大部分信息,既减少了因子的数目,又把握住了研究对象的相互关系.在因子分析中根据研究对象的不同,分为R 型和Q 型,如果研究变量的相互关系时则采用R 型因子分析;如果研究样品间相互关系时则采用Q 型因子分析.但无论是R 型或Q 型都未能很好地揭示变量和样品间的双重关系,另一方面当样品容量n 很大(如n>1 000),进行Q型因子分析时,计算n 阶方阵的特......
2023-11-18
对于广义线性模型,除了以上介绍的Logistic回归模型外,还有其他的模型,如Poisson模型,这里就不作详细介绍.以下简要介绍R 软件中“glm( )”关于这些模型的使用方法.Poisson分布族模型和拟Poisson分布族模型的使用方法如下:fm<-glmfm<-glm其直观意义是ln[E]=β0+β1x1+β2x2+…+βp xp,即E=exp(β0+β1 x1+β2 x2+…......
2023-11-18
,F5 的线性组合表示出来Xi=μi+ai1 F1+ai2 F2+…,F5 的值却是未知的,有关参数的意义也有很大的差异.因子分析的首要任务就是估计因子载荷aij 和方差σ2i,然后给因子Fi 一个合理的解释,若难以进行合理的解释,则需要进一步作因子旋转,希望旋转后能发现比较合理的解释.特别需要说明的是这里的因子和试验设计里的因子(或因素)是不同的,它比较抽象和概括,往往是不可以单独测量的.......
2023-11-18
多元统计分析是统计学中应用性很强的一个分支,它的应用范围十分广泛.多元统计分析可以应用于几乎所有的领域,主要包括经济学、农业、地质学、医学、工业、气象学、金融、精算、物理学、地理学、军事科学、文学、法律、环境科学、考古学、体育科学、遗传学、教育学、生物学、管理科学、水文学等,还有一些交叉学科或方向等.多元统计分析的应用实在是难以一一罗列,以下简要地介绍一下多元统计分析在文学、数据挖掘(作为交叉学科......
2023-11-18
幂函数w =zn(n ≥2为自然数)在z平面上处处可导,且除去原点外导数不为零,因此,在z平面上除去原点外是处处保角的.下面讨论w = zn在原点的性质.若令z = reiθ,w = ρeiφ,则由ρeiφ =rnelnθ,得由此可知,在w = zn映射下,z平面上的圆周|z| = r映射成w 平面上的圆周|w|=rn,射线arg z =θ0 映射成射线arg w =φ=nθ0,正实轴θ =0映射......
2023-10-30
相关推荐