,xp,用向量表示X=(x1,x2,…,βp 为待估参数.Logistic回归模型中的参数估计常用极大似然估计法得到.设y 是0-1变量,x1,x2,…,n),取P=πi,P=1-πi,则yi 的联合概率函数为,yi=0,1;i=1,2,…,yn 的似然函数为对数似然函数为对于Logistic回归,将代入,得令=0,可以用数值计算求待估参数β0,β1,β2,…,βp 的极大似然估计.用R 软件可以解决Logistic回归模型中的参数估计、检验等问题.......
2023-11-18
在自然科学和社会科学的研究中,研究对象用某种方法已划分为若干类型.当得到一个新的样本数据(通常为多元数据),要确定该样品属于已知类型中哪一类,这类问题属于判别分析(discriminate analysis).判别分析是以判别个体所属群体的一种统计方法,它产生于20世纪30年代.近些年来,判别分析在许多领域中得到广泛应用.
人们常说“像诸葛亮那么神机妙算”“像泰山那么稳固”“如钻石那样坚硬”等等.看来,一些判别标准都是有原型的,而不是凭空想出来的.虽然这些判别的标准并不全是那么精确或严格,但大都是根据一些现有的模型得到的.有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异.于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫.这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了.这种判别的方法就是本章要介绍的判别分析.
判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定.而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这些数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了.和聚类分析相同的是,判别分析也是利用距离远近来将对象归类的.(www.chuimin.cn)
在实际问题中,判别分析具有重要意义.例如,在寿命试验中,只有在被试样品用坏时寿命才能得到.而判别分析可以根据某些非破坏性测量指标,便可将产品质量分出等级.又如在医学诊断中,可以通过某些便于观测的指标,对疾病的类型做出诊断.利用计算机对某人是否有心脏病进行诊断时,可以选取一批没有心脏病的人,测量其p 个指标的数据,然后再选取一批有心脏病的人,同样也测量这p 个指标的数据,利用这些数据建立一个判别函数,并求出相应的临界值.这时,对于需要进行诊断的人,也同样测量这p 个指标的数据,将其代入判别函数,求得判别得分,再根据判别临界值就可以判断此人是否属于有心脏病的那一群体.又如,在考古学中,对化石及文物年代的判断;在地质学中,判断是有矿还是无矿;在质量管理中,判断某种产品是合格品,还是不合格品;在植物学中,对于新发现的植物,判断其属于哪一科.总之,判别分析方法在很多学科中都有着广泛的应用.
通常各个总体的分布是未知的,它需要由各总体取得的样本数据来估计.一般,先要估计各个总体的均值向量与协方差矩阵.从每个总体取得的样本叫训练样本,判别分析从各训练样本中提取总体的信息,构造一定的判别准则,判断新样品属于哪个总体.从统计学的角度,要求判别在某种准则下最优,例如错判(或误判)的概率最小或错判的损失最小等.由于判别准则不同,有各种不同的判别方法.
有关应用多元统计分析:基于R的实验的文章
,xp,用向量表示X=(x1,x2,…,βp 为待估参数.Logistic回归模型中的参数估计常用极大似然估计法得到.设y 是0-1变量,x1,x2,…,n),取P=πi,P=1-πi,则yi 的联合概率函数为,yi=0,1;i=1,2,…,yn 的似然函数为对数似然函数为对于Logistic回归,将代入,得令=0,可以用数值计算求待估参数β0,β1,β2,…,βp 的极大似然估计.用R 软件可以解决Logistic回归模型中的参数估计、检验等问题.......
2023-11-18
在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.以下对鸢尾花iris数据集进行聚类分析,代码如下:>data(iris);attach(iris)>iris.hc1<-hclust(dist(......
2023-11-18
如果F 检验的结论是拒绝H0,则说明因素A 的r 个水平有显著差异,也就是说,r 个均值之间有显著差异.但这并不意味着所有均值之间都有显著差异,这时还需要对每一对μi 和μj 作一一比较.通常采用多重t检验方法进行多重比较.这种方法本质上就是针对每组数据进行t检验,只不过估计方差时利用的是全部数据,因而自由度变大.具体地说,要比较第i组和第j 组均值,即检验H0:μi=μj,i≠j,i,j=1,2,…......
2023-11-18
回归分析的基本思想和方法以及“回归”名词的由来,要归功于英国统计学家高尔顿(Galton).高尔顿和他的学生、现代统计学的奠基者之一皮尔逊(Pearson)在研究父母身高与其子女身高的遗传关系时,观察了1 078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年儿子的身高作为y,将这些数据画成散点图,发现趋势近似一条直线=33.73+0.516x(单位:英寸,1英寸=2.54 cm).这表明:......
2023-11-18
表7-1给出了我国31个省、市、自治区1999年城镇居民家庭平均每人全年消费支出的8个指标:x1:人均食品支出(元、人);x2:人均衣着商品支出(元、人);x3:人均家庭设备用品及服务支出(元、人);x4:人均医疗保健支出(元、人);x5:人均交通和通讯支出(元、人);x6:人均娱乐教育文化服务支出(元、人);x7:人均居住支出(元、人);x8:人均杂项商品和服务支出(元、人).表7-1全国城镇......
2023-11-18
Harman74.cor数据集是R 软件自带的数据集,以下对该数据集进行因子分析.(1)查看Harman74数据集中(前面)部分信息Harman74.cor数据集,包含了对芝加哥郊区145名七年级和八年级儿童进行的24 项心理测试指标的相关系数矩阵.其中的24 项心理测试指标包括:VisualPerception,Cubes,PaperFormBoard,Flags,GeneralInformat......
2023-11-18
多元统计分析是统计学中应用性很强的一个分支,它的应用范围十分广泛.多元统计分析可以应用于几乎所有的领域,主要包括经济学、农业、地质学、医学、工业、气象学、金融、精算、物理学、地理学、军事科学、文学、法律、环境科学、考古学、体育科学、遗传学、教育学、生物学、管理科学、水文学等,还有一些交叉学科或方向等.多元统计分析的应用实在是难以一一罗列,以下简要地介绍一下多元统计分析在文学、数据挖掘(作为交叉学科......
2023-11-18
对R 自带的stackloss数据集进行逐步回归.(1)首先显示stackloss数据集的信息其中,变量为stack.loss(氨气损失百分比),Air.Flow(空气流量),Water.Temp(水温),Acid.Conc.(硝酸浓度).(2)计算变量间的相关性——相关系数>cor(stackloss)结果如下:(3)散布图矩阵>library(car)>scatterplotMatrix(st......
2023-11-18
相关推荐