,F5 的线性组合表示出来Xi=μi+ai1 F1+ai2 F2+…,F5 的值却是未知的,有关参数的意义也有很大的差异.因子分析的首要任务就是估计因子载荷aij 和方差σ2i,然后给因子Fi 一个合理的解释,若难以进行合理的解释,则需要进一步作因子旋转,希望旋转后能发现比较合理的解释.特别需要说明的是这里的因子和试验设计里的因子(或因素)是不同的,它比较抽象和概括,往往是不可以单独测量的.......
2023-11-18
前面用最小二乘法给出了回归参数的最小二乘估计,并由此给出了回归方程.但回归方程并没有事先假定Y 与X 一定存在线性关系,如果Y 与X 不存在线性关系,那么得到的回归方程就毫无意义.因此,需要对回归方程进行检验.
所谓对一元回归方程进行检验,就等价于检验
H0:b=0,H1:b ≠0.
关于以上检验问题的方法,常用的有F 检验法、t 检验法和相关系数检验法.可以证明,F 检验法、t检验法和相关系数检验法本质上都是相同的.
以下首先介绍t检验法,其次介绍平方和的分解,然后介绍F 检验法,再然后介绍判定系数(或决定系数),最后介绍估计标准误差.
(1)t检验法
可以证明.
对于给定的显著性水平α,拒绝域为.这种检验法称为t检验法.
在使用有关软件计算时,软件并不计算相应的拒绝域,而是计算相应分布的p值.p 值本质上是犯第一类错误的概率,即拒绝原假设而原假设为真的概率.因此,给一个指定的α 值(通常α=0.05),当p<α 时,就拒绝原假设;否则,不能拒绝原假设(“冒一定的风险”接受原假设).
(2)平方和的分解
为了寻找检验H0 的方法,将X 对Y 的线性影响与随机波动引起的变差分开.对一个具体的观测值来说,变差的大小可以用实际观测值y 与其均值之差y-
来表示,而n 次观测值的总变差可由这些离差的平方和来表示.
,称它为观测值y1,y2,…,yn 的离差平方和或总平方和(total sum of squares).
SST 反映了观测值yi(i=1,2,…,n)总的分散程度,对SST 进行分解,得到
其中,.
可以证明,,由此得
其中,.(www.chuimin.cn)
SSR 叫做回归平方和(regression sum of squares),由于
所以SSR 是回归值 的离差平方和,它反映了yi(i=1,2,…,n)的分散程度,这种分散程度是由于Y 与X 之间线性关系引起的.SSE 叫做残差平方和(residual sum of squares),它反映了yi 与回归值
的偏离程度,它是X 对Y 的线性影响之外的其余因素产生的误差.
(3)F 检验法
H0 成立时,可以证明
对于给定的显著性水平α,拒绝域为W={F>Fα(1,n-2)}.对于F 检验统计量的p 值,如果p<α,则拒绝H0,表明两个变量之间的线性关系显著.这种检验法称为F 检验法.
(4)判定系数(或决定系数)
回归平方和SSR 占总平方和(或离差平方和)SST 的比例称为判定系数(coefficient of determination),也称决定系数,记作R2,其计算公式为
在一元线性回归中,判定系数(或决定系数)是相关系数的平方根.判定系数(或决定系数)R2 可以用于检验回归直线对数据的拟合程度.如果所有观测点都落在回归直线上,则残差平方和SSE=0,此时SST=SSR,于是R2=1,拟合是完全的;如果Y 的变化与X 无关,此时=
,则R2=0.可见R2 ∈[0,1].R2 越接近1,回归直线的拟合程度越好;R2 越接近0,回归直线的拟合程度越差.
在R 软件中,用Multiple R-squared表示判定系数(或决定系数).
(5)估计标准误差
估计标准误差(standard error of estimate)是残差平方和SSE 的均方根,即残差的标准差,用se 来表示,其计算公式为
其中,p 为自变量的个数,在一元线性回归中(p=1),n-p-1=n-2.
se 反映了用回归方程预测因变量时产生的预测误差的大小,因此它从另一个角度说明了回归直线的拟合程度.
在R 软件中,用“Residual standard error”表示(剩余)标准误差.
有关应用多元统计分析:基于R的实验的文章
,F5 的线性组合表示出来Xi=μi+ai1 F1+ai2 F2+…,F5 的值却是未知的,有关参数的意义也有很大的差异.因子分析的首要任务就是估计因子载荷aij 和方差σ2i,然后给因子Fi 一个合理的解释,若难以进行合理的解释,则需要进一步作因子旋转,希望旋转后能发现比较合理的解释.特别需要说明的是这里的因子和试验设计里的因子(或因素)是不同的,它比较抽象和概括,往往是不可以单独测量的.......
2023-11-18
多元统计分析是统计学中应用性很强的一个分支,它的应用范围十分广泛.多元统计分析可以应用于几乎所有的领域,主要包括经济学、农业、地质学、医学、工业、气象学、金融、精算、物理学、地理学、军事科学、文学、法律、环境科学、考古学、体育科学、遗传学、教育学、生物学、管理科学、水文学等,还有一些交叉学科或方向等.多元统计分析的应用实在是难以一一罗列,以下简要地介绍一下多元统计分析在文学、数据挖掘(作为交叉学科......
2023-11-18
根据上面的叙述,要选择样本空间Ω 的一个划分R1 和R2=Ω-R1,使得平均误判损失ECM 达到极小.定理8.3.1 极小化平均误判损失式的区域R1 和R2 为说明:当时,即x 为边界点,它可以归入R1 和R2中的任何一个,为了方便就将它归入R1.根据定理8.3.1,得到两总体的Bayes判别准则:应用此准则时仅需要计算:新样本点x0=(x01,x02,…......
2023-11-18
,Y为来自总体容量为n 的样本,这时协方差矩阵的无偏估计为其中,用代替Σ 并按式和式求出 和,,称 为样本的典型相关系数,称(i=1,2,…,q)为样本的典型变量.计算时也可从样本的相关系数矩阵出发求样本的典型相关系数和典型变量,将相关系数矩阵取代协方差阵,计算过程是一样的.如果复相关系数中的一个变量是一维的,那么也可以称为偏相关系数.偏相关系数是描述一个随机变量y 与多个随机变量X=(x1,x2,…......
2023-11-18
如果是,建立变量之间的定量关系式,并用于预测或控制——回归分析.变量之间的相互关系:分析两组变量之间的相互关系——典型相关分析.多元数据的统计推断这是关于参数估计和假设检验的问题.特别是多元正态分布的均值向量和协方差矩阵的估计和假设检验等问题.多元统计分析的理论基础多元统计分析的理论基础包括多维随机向量,以及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论.......
2023-11-18
,βp的线性函数.因此,对μ 作变换,则可得到下面几种分布的连接函数的形式:正态分布m(μ)=μ=∑βi xi.二项分布.Poisson分布m(μ)=lnμ=∑βi xi.上述推广体现在以下两个方面:通过一个连接函数,将响应变量的期望与解释变量建立线性关系m[E]=β0+β1 x1+β2 x2+…......
2023-11-18
随着大数据、人工智能在我们日常生活的渗透,学习多元统计分析的人越来越多.“多元统计分析”课程已经被越来越多高校列为相关专业的必修课或选修课.《多元统计分析》教材的特点各有不同,有的教材侧重理论的讲述,读者需要具备较深厚的数学基础;有的教材则注重模型的应用,理论和技术细节不是重点.作者认为,对于侧重“应用”多元统计方法进行数据处理和分析的读者,重点不在于理解多元统计方法的理论证明和公式推导,而是要应......
2023-11-18
用MASS包中的UScereal数据集,我们研究美国谷物中的卡路里、脂肪和糖含量是否会因为储存架位置的不同而发生变化.其中1代表底层货架,2代表中层货架,3代表顶层货架.卡路里(calories)、脂肪(fat)和糖(sugars)含量是因变量,货架是3水平(1,2,3)的自变量.(1)单因素多元方差分析在以上代码中,“cbind( )”函数将三个变量(calories,fat,sugars)合并......
2023-11-18
相关推荐