对R 自带的stackloss数据集进行逐步回归.(1)首先显示stackloss数据集的信息其中,变量为stack.loss(氨气损失百分比),Air.Flow(空气流量),Water.Temp(水温),Acid.Conc.(硝酸浓度).(2)计算变量间的相关性——相关系数>cor(stackloss)结果如下:(3)散布图矩阵>library(car)>scatterplotMatrix(st......
2023-11-18
在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.
根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.
以下对鸢尾花iris数据集进行聚类分析,代码如下:
>data(iris);attach(iris)
>iris.hc1<-hclust(dist(iris[,1:4]))
>#plot(iris.hc1,hang=-1)
>plclust(iris.hc1,labels=FALSE,hang=-1)
>re<-rect.hclust(iris.hc1,k=3)(www.chuimin.cn)
>iris.id<-cutree(iris.hc1,3)
>table(iris.id,Species)
结果如图7-1所示.
图7-1 聚类图
在以上代码中,用函数“hclust( )”进行聚类分析,输出结果保存在“iris.hc1”中,用函数“rect.hclust( )”按给定的类的个数(或阈值)进行聚类,并用函数“plclust( )”代替“plot( )”绘制聚类图(两者使用方法基本相同),各类用边框界定,选项“labels=FALSE”只是为了省去数据的标签.函数“cuttree( )”将“iris.hc1”输出编制成3组.
图7-1是将两相近(距离最短)的数据向量连接在一起,然后进一步组合,直至所有数据都连接在一起;函数“cuttree( )”将数据iris分类结果“iris.hc”编为三组,分别以1,2,3表示,保存在“iris.id”中.将“iris.id”与iris中Species作比较发现,1应该是setosa类,2应该是virginica类,3是versicolor.
有关应用多元统计分析:基于R的实验的文章
对R 自带的stackloss数据集进行逐步回归.(1)首先显示stackloss数据集的信息其中,变量为stack.loss(氨气损失百分比),Air.Flow(空气流量),Water.Temp(水温),Acid.Conc.(硝酸浓度).(2)计算变量间的相关性——相关系数>cor(stackloss)结果如下:(3)散布图矩阵>library(car)>scatterplotMatrix(st......
2023-11-18
Harman74.cor数据集是R 软件自带的数据集,以下对该数据集进行因子分析.(1)查看Harman74数据集中(前面)部分信息Harman74.cor数据集,包含了对芝加哥郊区145名七年级和八年级儿童进行的24 项心理测试指标的相关系数矩阵.其中的24 项心理测试指标包括:VisualPerception,Cubes,PaperFormBoard,Flags,GeneralInformat......
2023-11-18
在实验2.3.2中对iris数据集进行了描述和展示,以下对iris数据集进行可视化.花萼长度、花萼宽度、花瓣长度、花瓣宽度的小提琴图小提琴图是箱线图的变种,因为形状酷似小提琴而得名.小提琴图是将箱线图与核密度图结合在一起,它在箱线图上以镜像方式叠加上核密度图.绘制小提琴图,可以使用vioplot包中的“vioplot( )”函数,但在第一次使用之前请先安装vioplot包.“vioplot( )”函数的调用格式为:vioplot(x1,x2,…......
2023-11-18
USJudgeRatings数据集(R 自带),该数据集来自psych包,需加载以及调用psych包.(1)首先查看USJudgeRatings数据集的信息该数据集包含了律师对美国高等法院法官的评分,数据包含43个观测值,12个变量.12个变量如下:CONT:律师与法官的接触次数;INTG:法官正直程度;DMNR:风度;DILG:勤勉度;CFMG:案例流程管理水平;DECI:决策效率;PREP:审......
2023-11-18
表7-1给出了我国31个省、市、自治区1999年城镇居民家庭平均每人全年消费支出的8个指标:x1:人均食品支出(元、人);x2:人均衣着商品支出(元、人);x3:人均家庭设备用品及服务支出(元、人);x4:人均医疗保健支出(元、人);x5:人均交通和通讯支出(元、人);x6:人均娱乐教育文化服务支出(元、人);x7:人均居住支出(元、人);x8:人均杂项商品和服务支出(元、人).表7-1全国城镇......
2023-11-18
本节在Hadoop平台上提出了一种基于MapReduce编程思想设计与优化的KMeans并行算法。图5-43KMeans聚类运行结果图5-43是KMeans聚类运行结果,运行结果的上半部分是得到的16类簇的聚类中心,如表5-13所示;下半部分是对452条数据的聚类结果,聚类结果中的数字1~16表示聚类的标签,如表5-5所示。整理统计KMeans聚类运行结果,如表5-14所示。本节在进行基于Hadoop的医学数据聚类算法研究时,以心律失常数据作为实验数据集,利用KMeans聚类算法在Hadoop平台上实现算法。......
2023-11-08
ability.cov数据集是R 软件自带的数据集,以下对该数据集进行因子分析.(1)查看ability.cov数据集中的信息ability.cov数据集提供了Ability and Intelligence Tests(能力和智力测试)中,112个人参加的六个测试指标general(普通),picture(画图),blocks(积木),maze(迷津),reading(阅读),vocab(词汇)......
2023-11-18
以下对smoke数据集进行对应分析.(1)首先查看smoke数据集的信息>library(ca)>data("smoke")>smoke结果如下:这个数据集来自Greenacre(1984),被应用于多个统计软件作为对应分析的说明案例数据.它的内容是一个5行(阶层:SM,JM,SE,JE和SC)4列(吸烟习惯:none,light,medium 和heavy)的列联表,给出了一个虚构的公司内各阶层......
2023-11-18
相关推荐