在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.以下对鸢尾花iris数据集进行聚类分析,代码如下:>data(iris);attach(iris)>iris.hc1<-hclust(dist(......
2023-11-18
multcomp包中的cholesterol数据集,有50个患者均接受降低胆固醇药物治疗(trt)五种方法对患者的效果.五种方法分别是:20 mg一天一次(1time)、10 mg一天两次(2times)和5 mg一天四次(4times),其中前三种所用药物相同,剩下的drugD 和drugE是候选药物.哪种药物疗法降低胆固醇最多?以下对这五种治疗方法进行方差分析.
(1)首先查看五种治疗方法的分组情况
>library(multcomp)
>attach(cholesterol)
>table(trt)
trt
结果如下:
以上结果说明,五种治疗方法的每组各有10个患者.
(2)计算每组的均值
>aggregate(response,by=list(trt),FUN=mean)
结果如下:
(3)计算每组的标准差
>aggregate(response,by=list(trt),FUN=sd)
结果如下:
(4)检验组间差异
>fit<-aov(response~trt)
>summary(fit)
结果如下:
(5)画各组均值及其置信区间的图
>library(gplots)
>plotmeans(response~trt,xlab="Treatment",ylab="Response",main="Mean plot\nwith 95% CI")
>detach(cholesterol)
结果如图6-1所示.
图6-1 五种治疗方式的效果图(www.chuimin.cn)
从以上结果我们看到,每组10个患者接受一种药物疗法;均值显示drugE 降低胆固醇最多,而1time降低胆固醇最少;各组的标准差相对稳定,在2.878113~3.345003内;对五种治疗方式(trt)的F 检验非常显著,说明五种治疗方式的效果不同.
从图6-2可以清楚地看到五种治疗方式之间的差异.
(6)多重比较
对以上所得结果进行多重比较.
从以上的分析中虽然我们得到了五种治疗方式的效果不同,但是并没有明确哪些疗法与其他疗法不同.
>Tukey HSD(fit)
结果如下:
从以上结果考到,1time和2times的均值的差异不显著(p=0.1380949),而1time和4times的均值的差异非常显著(p<0.001).
(7)用“Tukey HSD( )”函数画成对比较图
>par(las=2)
>par(mar=c(5,8,4,2))
>plot(Tukey HSD(fit))
结果如图6-2所示.
图6-2 均值成对比较图
(8)多重比较对结果的可视化
multcomp包中的“glht( )”函数提供了多重比较更为全面的方法,并可以用一个图形对结果进行展示.代码如下:
>library(multcomp)
>par(mar=c(5,4,6,2))
>tuk<-glht(fit,linfct=mcp(trt="Tukey"))
>plot(cld(tuk,level=0.05),col="lightgrey")
结果如图6-3所示.
图6-3 多重比较对结果的可视化
在上面的代码中,为适应字母阵列摆放,par 语句增大了顶部边界面积.“cld( )”函数中的“level”选项设置了使用的显著性水平.
有相同字母的组(用箱线图表示)说明均值的差异不显著.从图6-3中我们看到,1time和2times的均值的差异不显著,2time和4times的均值的差异也不显著,而1time和4times的均值的差异显著(它们没有相同字母).
有关应用多元统计分析:基于R的实验的文章
在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.以下对鸢尾花iris数据集进行聚类分析,代码如下:>data(iris);attach(iris)>iris.hc1<-hclust(dist(......
2023-11-18
本节在Hadoop平台上提出了一种基于MapReduce编程思想设计与优化的KMeans并行算法。图5-43KMeans聚类运行结果图5-43是KMeans聚类运行结果,运行结果的上半部分是得到的16类簇的聚类中心,如表5-13所示;下半部分是对452条数据的聚类结果,聚类结果中的数字1~16表示聚类的标签,如表5-5所示。整理统计KMeans聚类运行结果,如表5-14所示。本节在进行基于Hadoop的医学数据聚类算法研究时,以心律失常数据作为实验数据集,利用KMeans聚类算法在Hadoop平台上实现算法。......
2023-11-08
用MASS包中的UScereal数据集,我们研究美国谷物中的卡路里、脂肪和糖含量是否会因为储存架位置的不同而发生变化.其中1代表底层货架,2代表中层货架,3代表顶层货架.卡路里(calories)、脂肪(fat)和糖(sugars)含量是因变量,货架是3水平(1,2,3)的自变量.(1)单因素多元方差分析在以上代码中,“cbind( )”函数将三个变量(calories,fat,sugars)合并......
2023-11-18
KDDCUP99数据集是网络访问数据记录集[117],它包含了若干个数据集,本书选用的是corrected.gz。每个记录有42个属性,前41个是访问特征属性,最后一个属性是记录的类别标识。从corrected中按比例分别选择两类记录来构造若干子集,其中攻击记录所占比例均小于10%,以使其为特异记录。分别在30+300、50+500、100+1000、200+2000、300+3000共5个子集上分别运行PecuFind算法程序和CpecuFind算法程序。很明显,Cpecu Find发现攻击记录的能力强于Pecu Find。表3.330+300和50+500上的实验结果比较......
2023-06-16
前述测试主要是对利用特征数据进行分类精度对比,由于数据集大小、类分布不同等因素影响,精度只能在一定程度上代表数据对分类的支持情况。为探索特征数据的性能,更深入的分析是必要的。这组分析表明,特征数据集具有较好的线性可分特性。表5.11Fisher线性判别的分类结果2.特异分析在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称是特异数据或特异对象。......
2023-06-16
MASS包中包含Boston数据集(波士顿房价),它记录了波士顿周围506个街区的medv(房价中位数).我们将设法用13个预测变量如rm(每栋住宅的平均房间数),age(平均房龄),lstat(社会经济地位低的家庭所占比例)等来预测medv(房价中位数).(1)首先查看Boston数据集(波士顿房价)中的变量>library(MASS)>fix(Boston)>names(Boston)结果如下......
2023-11-18
对R 自带的stackloss数据集进行逐步回归.(1)首先显示stackloss数据集的信息其中,变量为stack.loss(氨气损失百分比),Air.Flow(空气流量),Water.Temp(水温),Acid.Conc.(硝酸浓度).(2)计算变量间的相关性——相关系数>cor(stackloss)结果如下:(3)散布图矩阵>library(car)>scatterplotMatrix(st......
2023-11-18
Wisconsin Breast Cancer数据集有699条记录,每条记录都是记录一位胸部有肿瘤的病人的特征数据。可以从中随机选择444条良性记录和39条恶性记录组成一数据集。文献[107]描述的是基于聚类的且基于密度局部特异数据挖掘方法—FindCBLOF,在Wisconsin Breast Cancer Data上的实验结果显示了其挖掘特异数据的能力在同类算法中是优越的。结果再次表明Cpecu Find挖掘特异数据的能力略优于pecu Find。表3.4Wisconsin Breast Cancer数据集上的实验结果比较......
2023-06-16
相关推荐