首页 理论教育应用多元统计分析:基于R的实验方法简介

应用多元统计分析:基于R的实验方法简介

【摘要】:如果是,建立变量之间的定量关系式,并用于预测或控制——回归分析.变量之间的相互关系:分析两组变量之间的相互关系——典型相关分析.多元数据的统计推断这是关于参数估计和假设检验的问题.特别是多元正态分布的均值向量和协方差矩阵的估计和假设检验等问题.多元统计分析的理论基础多元统计分析的理论基础包括多维随机向量,以及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论.

早在19世纪就出现了处理二维正态总体的一些方法,但系统地处理多维概率分布总体的统计分析问题则开始于20世纪.多元统计分析起源于20世纪初,1928年Wishart发表的论文《多元正态总体样本协方差阵的精确分布》,可以说是多元统计分析的开端.之后Fisher,Hotelling,Roy,许宝禄等人作出了一系列奠基性的工作,使多元统计分析在理论上得到迅速的发展.

20世纪40年代,多元统计分析在心理、教育、生物等方面有不少的应用,但由于计算量大,其发展受到影响.20世纪50年代,随着计算机的出现和发展,多元统计分析在地质、医学、气象社会学等方面得到了广泛的应用.20世纪60年代,通过应用和实践又完善和发展了理论,由于新理论和新方法的不断出现又促使它的应用范围更加扩大.20世纪70—80年代,在我国才受到各个领域的极大关注,近40年来,我国在多元统计分析的理论和应用上取得了许多显著的成绩.

进入21世纪后,人们获得的数据正以前所未有的速度迅速增加,产生了海量数据、大数据、超大型数据库等,遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学、生物学以及政府统计等领域,多元统计分析与人工智能、数据库技术等相结合,已经在经济商业金融、天文、地理、农业、工业等方面取得了成功的应用.

“多元统计分析”也称为“多元分析”(Multivariate Analysis).例如Mardia et al.(1979)的书,书名为Multivariate Analysis.英国著名的统计学家Kendall在《多元分析》一书中,把多元统计分析所研究的内容和方法概括为以下几个方面:

(1)简化数据结构(降维问题)

简化数据结构就是将某些复杂的数据结构通过变量变换等方法,使相互依赖的变量变成互不相关的,或把高维空间的数据投影到低维空间,使问题得到简化而损失的信息又不太多.例如,主成分分析、因子分析、对应分析等就是这样的一类方法.

(2)分类与判别(归类问题)

归类问题就是对所考察的观测点(或变量)按照相近程度进行分类(或归类).例如,聚类分析判别分析等就是解决这类问题的统计方法.(www.chuimin.cn)

(3)变量间的相互联系

相互依赖关系:分析一个或几个变量的变化是否依赖于另外一些变量的变化?如果是,建立变量之间的定量关系式,并用于预测或控制——回归分析.

变量之间的相互关系:分析两组变量之间的相互关系——典型相关分析.

(4)多元数据的统计推断

这是关于参数估计和假设检验的问题.特别是多元正态分布的均值向量和协方差矩阵的估计和假设检验等问题.

(5)多元统计分析的理论基础

多元统计分析的理论基础包括多维随机向量(特别是多维正态随机向量),以及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论.