首页 理论教育UScereal数据集方差分析:基于R的多元统计分析应用

UScereal数据集方差分析:基于R的多元统计分析应用

【摘要】:用MASS包中的UScereal数据集,我们研究美国谷物中的卡路里、脂肪和糖含量是否会因为储存架位置的不同而发生变化.其中1代表底层货架,2代表中层货架,3代表顶层货架.卡路里(calories)、脂肪(fat)和糖(sugars)含量是因变量,货架是3水平(1,2,3)的自变量.(1)单因素多元方差分析在以上代码中,“cbind( )”函数将三个变量(calories,fat,sugars)合并

用MASS包中的UScereal数据集,我们研究美国谷物中的卡路里、脂肪和糖含量是否会因为储存架位置的不同而发生变化.其中1代表底层货架,2代表中层货架,3代表顶层货架.卡路里(calories)、脂肪(fat)和糖(sugars)含量是变量,货架是3水平(1,2,3)的自变量

(1)单因素多元方差分析

在以上代码中,“cbind( )”函数将三个变量(calories,fat,sugars)合并成一个矩阵.“aggregate( )”函数可获取货架的各个均值,“cov( )”函数则输出个谷物间的方差和协方差.“manova( )”函数能对组间差异进行多元检验.上面的结果F 值显著,说明三个组的营养成分的观测值不同.由于多元检验是显著地,因此可以用“summary.aov( )”函数对每一个变量作单因素方差分析.从上述结果可以看出,三组的营养成分的观测值都是不同的.

(2)评估假设检验

单因素多元方差分析有两个前提假设,一个是多元正态性,另一个是方向-协方差矩阵同质性.第一个假设是指因变量组成合成的向量服从一个多元正态分布,可用QQ 图来验证该假设条件.

如果有p×1的多元正态随机向量x,均值为u,协方差矩阵为W,那么x 与u 的马氏距离的平方服从自由度为p 的卡方分布.Q-Q 图展示卡方分布的分位数,横、纵坐标分别表示样本量和马氏距离的平方值.如果全部点落在斜率为1、截距为0的直线上,则表明数据服从多元正态分布.

检验多元正态性,其代码如下:

>center<-colMeans(y)

>n<-nrow(y)

>p<-ncol(y)

>cov<-cov(y)

>d<-mahalanobis(y,center,cov)

>coord<-qqplot(qchisq(ppoints(n),d f=p),

+d,main="Q-Q plot Assessing Multivariate Normality",

+ylab="mahalanobis D2")

>abline(a=0,b=1)

>identify(coord$x,coord$y,labels=row.names(UScereal))(www.chuimin.cn)

结果如图6-7所示.

图6-7 检验多元正态性的QQ 图

使用mvoutlier包中的“aq.plot( )”函数来检验多元离群点,其代码如下:

>library(mvoutlier)

>outliers<-aq.plot(y)

>outliers

结果如图6-8所示.

从图6-8可以看到,数据中有离群点.

(3)稳健多元方差分析

如果多元正态性或者方差-协方差均值假设都不满足,又或者担心多元离群点,那么可以考虑用稳健检验.稳健单因素MANOVA 可通过rrcov包中的“Wilks.test( )”函数实现.代码如下:

图6-8 检验多元离群点图

>library(rrcov)

>Wilks.test(y,shelf,method="mcd")

结果如下:

从以上结果来看,稳健检验对离群点和违反MANOVA 假设的情况不敏感,而且再一次验证了储存在货架顶部、中部和底部的谷物营养成分含量不同.