首页 理论教育基于R的实验:判别分析解决样品分类问题

基于R的实验:判别分析解决样品分类问题

【摘要】:在自然科学和社会科学的研究中,研究对象用某种方法已划分为若干类型.当得到一个新的样本数据(通常为多元数据),要确定该样品属于已知类型中哪一类,这类问题属于判别分析(discriminate analysis).判别分析是以判别个体所属群体的一种统计方法,它产生于20世纪30年代.近些年来,判别分析在许多领域中得到广泛应用.人们常说“像诸葛亮那么神机妙算”“像泰山那么稳固”“如钻石那样坚硬”等等.看

自然科学和社会科学的研究中,研究对象用某种方法已划分为若干类型.当得到一个新的样本数据(通常为多元数据),要确定该样品属于已知类型中哪一类,这类问题属于判别分析(discriminate analysis).判别分析是以判别个体所属群体的一种统计方法,它产生于20世纪30年代.近些年来,判别分析在许多领域中得到广泛应用.

人们常说“像诸葛亮那么神机妙算”“像泰山那么稳固”“如钻石那样坚硬”等等.看来,一些判别标准都是有原型的,而不是凭空想出来的.虽然这些判别的标准并不全是那么精确或严格,但大都是根据一些现有的模型得到的.有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异.于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫.这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了.这种判别的方法就是本章要介绍的判别分析.

判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定.而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这些数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了.和聚类分析相同的是,判别分析也是利用距离远近来将对象归类的.(www.chuimin.cn)

在实际问题中,判别分析具有重要意义.例如,在寿命试验中,只有在被试样品用坏时寿命才能得到.而判别分析可以根据某些非破坏性测量指标,便可将产品质量分出等级.又如在医学诊断中,可以通过某些便于观测的指标,对疾病的类型做出诊断.利用计算机对某人是否有心脏病进行诊断时,可以选取一批没有心脏病的人,测量其p 个指标的数据,然后再选取一批有心脏病的人,同样也测量这p 个指标的数据,利用这些数据建立一个判别函数,并求出相应的临界值.这时,对于需要进行诊断的人,也同样测量这p 个指标的数据,将其代入判别函数,求得判别得分,再根据判别临界值就可以判断此人是否属于有心脏病的那一群体.又如,在考古学中,对化石文物年代的判断;在地质学中,判断是有矿还是无矿;在质量管理中,判断某种产品是合格品,还是不合格品;在植物学中,对于新发现的植物,判断其属于哪一科.总之,判别分析方法在很多学科中都有着广泛的应用.

通常各个总体的分布是未知的,它需要由各总体取得的样本数据来估计.一般,先要估计各个总体的均值向量与协方差矩阵.从每个总体取得的样本叫训练样本,判别分析从各训练样本中提取总体的信息,构造一定的判别准则,判断新样品属于哪个总体.从统计学的角度,要求判别在某种准则下最优,例如错判(或误判)的概率最小或错判的损失最小等.由于判别准则不同,有各种不同的判别方法.