首页 理论教育多总体情形在应用多元统计分析中的实际成果

多总体情形在应用多元统计分析中的实际成果

【摘要】:协方差矩阵相同设有k 个总体X1,X2,…,μk,它们有相同的协方差矩阵Σ.对于任意一个样本观测指标x=(x1,x2,…,μk 和Σ1,Σ2,…,Σk 未知时,同样可用样本来估计(同前).在R 软件中,函数“lda( )”和函数“qda( )”提供了对于数据进行线性判别分析和二次判别分析的工具.这两种函数的使用方法如下:ldaldaqdaqda在以上函数中,参数formula是因子或分组形如~x1+x2+…

(1)协方差矩阵相同

设有k 个总体X1,X2,…,Xk,它们的均值别为μ1,μ2,…,μk,它们有相同的协方差矩阵Σ.对于任意一个样本观测指标x=(x1,x2,…,xpT,计算其到第i类的马氏距离(的平方):

于是得到线性判别函数Zi=b0+bi x(i=1,2,…,k),其中b0 为常数项, 为线性判别系数.

相应的判别规则为:

当Zi=max(Zj),1≤j ≤k,则x ∈Xi

当μ1,μ2,…,μk 和Σ 未知时,可用样本均值向量和样本合并方差矩阵Sp估计,其中

(2)协方差矩阵不同

设有k 个总体X1,X2,…,Xk,它们的均值别为μ1,μ2,…,μk,它们的协方差矩阵Σi 不全相同,对于任意一个样本观测指标x=(x1,x2,…,xpT,计算其到第i类的马氏距离(的平方):,i=1,2,…,k.由于各Σi 不全相同,所以从该式推不出线性判别函数,其本身是一个二次函数

相应的判别规则为:

当D(x,Xi)=min D(x,Xj),1≤j ≤k,则x ∈Xi

当μ1,μ2,…,μk 和Σ1,Σ2,…,Σk 未知时,同样可用样本来估计(同前).

在R 软件中,函数“lda( )”和函数“qda( )”提供了对于数据进行线性判别分析和二次判别分析的工具.这两种函数的使用方法如下:

lda(formula,data,...,subset,na.action)(www.chuimin.cn)

lda(x,grouping,prior=proportions,tol=1.0e-4,

method,CV=FALSE,NU,...)

qda(formula,data,...,subset,na.ac tion)

qda(x,grouping,prior=propor tions,

method,CV=FALSE,NU,...)

在以上函数中,参数formula是因子或分组形如~x1+x2+… 的公式.data是包含模型变量的数据框.subset是观察值的子集.x 是由数据构成的数据框或矩阵.grouping是由样本分类构成的因子向量.prior是先验概率,缺省时按输入数据的比例给出.

通常预测函数“predict( )”会与函数“dla( )”或函数“qla( )”一起使用,其使用方法如下:

predict(objec t,newdata,prior=objec t$prior,dimen,

method=c(ˈplug-inˈ,ˈpredictiveˈ,ˈdebiasedˈ),...)

在函数中,参数object是由函数“dla( )”或函数“qla( )”生成的对象.newdata是由预测数据构成的数据框,如果函数“dla( )”或函数“qla( )”用公式形式计算;或者是向量,如果用矩阵与因子形式计算.prior是先验概率,缺省时按输入数据的比例给出.dimen是使用空间的维数.

注意:以上三个函数(predict函数在作判别分析预测时)不是基本函数.因此在调用使用前需要载入MASS程序包,其具体命令为library(MASS)或用Window窗口加载.