如果F 检验的结论是拒绝H0,则说明因素A 的r 个水平有显著差异,也就是说,r 个均值之间有显著差异.但这并不意味着所有均值之间都有显著差异,这时还需要对每一对μi 和μj 作一一比较.通常采用多重t检验方法进行多重比较.这种方法本质上就是针对每组数据进行t检验,只不过估计方差时利用的是全部数据,因而自由度变大.具体地说,要比较第i组和第j 组均值,即检验H0:μi=μj,i≠j,i,j=1,2,…......
2025-09-30
在自然科学和社会科学的研究中,研究对象用某种方法已划分为若干类型.当得到一个新的样本数据(通常为多元数据),要确定该样品属于已知类型中哪一类,这类问题属于判别分析(discriminate analysis).判别分析是以判别个体所属群体的一种统计方法,它产生于20世纪30年代.近些年来,判别分析在许多领域中得到广泛应用.
人们常说“像诸葛亮那么神机妙算”“像泰山那么稳固”“如钻石那样坚硬”等等.看来,一些判别标准都是有原型的,而不是凭空想出来的.虽然这些判别的标准并不全是那么精确或严格,但大都是根据一些现有的模型得到的.有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异.于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫.这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了.这种判别的方法就是本章要介绍的判别分析.
判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定.而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这些数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了.和聚类分析相同的是,判别分析也是利用距离远近来将对象归类的.(https://www.chuimin.cn)
在实际问题中,判别分析具有重要意义.例如,在寿命试验中,只有在被试样品用坏时寿命才能得到.而判别分析可以根据某些非破坏性测量指标,便可将产品质量分出等级.又如在医学诊断中,可以通过某些便于观测的指标,对疾病的类型做出诊断.利用计算机对某人是否有心脏病进行诊断时,可以选取一批没有心脏病的人,测量其p 个指标的数据,然后再选取一批有心脏病的人,同样也测量这p 个指标的数据,利用这些数据建立一个判别函数,并求出相应的临界值.这时,对于需要进行诊断的人,也同样测量这p 个指标的数据,将其代入判别函数,求得判别得分,再根据判别临界值就可以判断此人是否属于有心脏病的那一群体.又如,在考古学中,对化石及文物年代的判断;在地质学中,判断是有矿还是无矿;在质量管理中,判断某种产品是合格品,还是不合格品;在植物学中,对于新发现的植物,判断其属于哪一科.总之,判别分析方法在很多学科中都有着广泛的应用.
通常各个总体的分布是未知的,它需要由各总体取得的样本数据来估计.一般,先要估计各个总体的均值向量与协方差矩阵.从每个总体取得的样本叫训练样本,判别分析从各训练样本中提取总体的信息,构造一定的判别准则,判断新样品属于哪个总体.从统计学的角度,要求判别在某种准则下最优,例如错判(或误判)的概率最小或错判的损失最小等.由于判别准则不同,有各种不同的判别方法.
相关文章
 
                                
                                如果F 检验的结论是拒绝H0,则说明因素A 的r 个水平有显著差异,也就是说,r 个均值之间有显著差异.但这并不意味着所有均值之间都有显著差异,这时还需要对每一对μi 和μj 作一一比较.通常采用多重t检验方法进行多重比较.这种方法本质上就是针对每组数据进行t检验,只不过估计方差时利用的是全部数据,因而自由度变大.具体地说,要比较第i组和第j 组均值,即检验H0:μi=μj,i≠j,i,j=1,2,…......
2025-09-30
 
                                
                                回归分析的基本思想和方法以及“回归”名词的由来,要归功于英国统计学家高尔顿(Galton).高尔顿和他的学生、现代统计学的奠基者之一皮尔逊(Pearson)在研究父母身高与其子女身高的遗传关系时,观察了1 078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年儿子的身高作为y,将这些数据画成散点图,发现趋势近似一条直线=33.73+0.516x(单位:英寸,1英寸=2.54 cm).这表明:......
2025-09-30
 
                                
                                在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.以下对鸢尾花iris数据集进行聚类分析,代码如下:>data(iris);attach(iris)>iris.hc1<-hclust(dist(......
2025-09-30
 
                                
                                多元统计分析是统计学中应用性很强的一个分支,它的应用范围十分广泛.多元统计分析可以应用于几乎所有的领域,主要包括经济学、农业、地质学、医学、工业、气象学、金融、精算、物理学、地理学、军事科学、文学、法律、环境科学、考古学、体育科学、遗传学、教育学、生物学、管理科学、水文学等,还有一些交叉学科或方向等.多元统计分析的应用实在是难以一一罗列,以下简要地介绍一下多元统计分析在文学、数据挖掘(作为交叉学科......
2025-09-30
 
                                
                                对R 自带的stackloss数据集进行逐步回归.(1)首先显示stackloss数据集的信息其中,变量为stack.loss(氨气损失百分比),Air.Flow(空气流量),Water.Temp(水温),Acid.Conc.(硝酸浓度).(2)计算变量间的相关性——相关系数>cor(stackloss)结果如下:(3)散布图矩阵>library(car)>scatterplotMatrix(st......
2025-09-30
 
                                
                                ,βp的线性函数.因此,对μ 作变换,则可得到下面几种分布的连接函数的形式:正态分布m(μ)=μ=∑βi xi.二项分布.Poisson分布m(μ)=lnμ=∑βi xi.上述推广体现在以下两个方面:通过一个连接函数,将响应变量的期望与解释变量建立线性关系m[E]=β0+β1 x1+β2 x2+…......
2025-09-30
 
                                
                                如果是,建立变量之间的定量关系式,并用于预测或控制——回归分析.变量之间的相互关系:分析两组变量之间的相互关系——典型相关分析.多元数据的统计推断这是关于参数估计和假设检验的问题.特别是多元正态分布的均值向量和协方差矩阵的估计和假设检验等问题.多元统计分析的理论基础多元统计分析的理论基础包括多维随机向量,以及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论.......
2025-09-30
 
                                
                                在开展计算机化测试后,动态问题解决或复杂问题解决过程可以利用计算机后台保存的log文件对整个解题过程、知识获取阶段、知识应用阶段分别进行评价。从上述指标可以看出,目前对问题解决过程指标的分析主要局限在时间、步骤等基本统计上,综合的评价指标较少,并且指标比较分散,没有系统的分析框架。......
2025-09-30
相关推荐