在实验2.3.2中对iris数据集进行了描述和展示,以下对iris数据集进行可视化.花萼长度、花萼宽度、花瓣长度、花瓣宽度的小提琴图小提琴图是箱线图的变种,因为形状酷似小提琴而得名.小提琴图是将箱线图与核密度图结合在一起,它在箱线图上以镜像方式叠加上核密度图.绘制小提琴图,可以使用vioplot包中的“vioplot( )”函数,但在第一次使用之前请先安装vioplot包.“vioplot( )”函数的调用格式为:vioplot(x1,x2,…......
2023-11-18
iris数据集是R 自带的数据集,以下对该数据集进行描述和展示.
(1)展示iris数据集的前几行
>head(iris)
结果如下:
其中Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,分别表示(鸢尾花)花萼(Sepal)的长度,花萼的宽度,花瓣(Petal)的长度,花瓣的宽度以及每个观测值来自哪一种类.
(2)对鸢尾花数据集的数据进行描述
>summary(iris)
结果如下:
从以上结果可以看出,summary给出的信息说明,5个变量的150个观测值分为三类:setosa,versicolor,virginica,并给出了每个变量(前4个变量)观测值的最小值、第一4分位数、中位数(也是第二4分位数)、均值、第三4分位数、最大值.
(3)使用Hmisc包中的函数“describe( )”来描述
第一次使用前请先安装Hmisc包:(www.chuimin.cn)
>install.packages("Hmisc")
>library(Hmisc)
>describe(iris)
结果如下:
从以上结果可以看出,describe给出的信息说明,这个数据集由5个变量,150个观测值组成,150个观测值分为三类:setosa,versicolor,virginica,还给出了每个变量(前4个变量)观测值的最小5个值和最大5个值等.
(4)三种鸢尾花的变量之间的相关性描述——数字化展示
以下为求三种鸢尾花变量之间的相关系数.
(cor.all<-by(iris[,-5],INDICES=iris$Species,cor))
结果如下:
从以上计算结果可以看出,对于setosa种类的鸢尾花来说,花萼的宽度和长度之间的相关系数比较大,而其他两种鸢尾花(versicolor,virginica)则是花瓣的长度和花萼的长度也有较大的相关性.此外,对于versicolor种类的鸢尾花来说,花瓣的长度和宽度也有很大的相关性.
有关应用多元统计分析:基于R的实验的文章
在实验2.3.2中对iris数据集进行了描述和展示,以下对iris数据集进行可视化.花萼长度、花萼宽度、花瓣长度、花瓣宽度的小提琴图小提琴图是箱线图的变种,因为形状酷似小提琴而得名.小提琴图是将箱线图与核密度图结合在一起,它在箱线图上以镜像方式叠加上核密度图.绘制小提琴图,可以使用vioplot包中的“vioplot( )”函数,但在第一次使用之前请先安装vioplot包.“vioplot( )”函数的调用格式为:vioplot(x1,x2,…......
2023-11-18
在实验2.3.1中,我们对mtcars数据集进行了展示和描述.在实验2.3.3中,我们对mtcars数据集进行了可视化.现在我们对该数据集中的变量进行回归分析.(1)不考虑变量交互项对该数据集,如果把mpg(汽车每加仑公里数)作为因变量,自变量为hp(马力)和wt(汽车重量)进行回归.>fit<-lm(mpg~hp+wt,data=mtcars)>summary(fit)结果如下:得到的回归方程为......
2023-11-18
在实验2.3.1中,我们对mtcars数据集(R 自带数据集)进行了展示和描述,以下对该数据集进行可视化.(1)汽车每加仑英里数直方图>hist(mtcars$mpg,breaks=10)结果如图2-1所示.(2)按汽缸数划分的各车型车重的核密度图>par(lwd=2)>library(sm)>cyl.f<-factor(mtcars$cyl,levels=c(4,6,8),labels=c("4......
2023-11-18
在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化,在实验7.4.1中曾对iris数据集进行聚类分析.通过实验2.3.2对iris数据集进行描述和展示,我们知道iris数据集是对3个品种(species)鸢尾花:setosa、versicolor和virginica各抽取一个容量为50 的样本,测量其花萼长度(Sepal.Lenth)、花萼宽度(Se......
2023-11-18
在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.以下对鸢尾花iris数据集进行聚类分析,代码如下:>data(iris);attach(iris)>iris.hc1<-hclust(dist(......
2023-11-18
用MASS包中的UScereal数据集,我们研究美国谷物中的卡路里、脂肪和糖含量是否会因为储存架位置的不同而发生变化.其中1代表底层货架,2代表中层货架,3代表顶层货架.卡路里(calories)、脂肪(fat)和糖(sugars)含量是因变量,货架是3水平(1,2,3)的自变量.(1)单因素多元方差分析在以上代码中,“cbind( )”函数将三个变量(calories,fat,sugars)合并......
2023-11-18
,Y为来自总体容量为n 的样本,这时协方差矩阵的无偏估计为其中,用代替Σ 并按式和式求出 和,,称 为样本的典型相关系数,称(i=1,2,…,q)为样本的典型变量.计算时也可从样本的相关系数矩阵出发求样本的典型相关系数和典型变量,将相关系数矩阵取代协方差阵,计算过程是一样的.如果复相关系数中的一个变量是一维的,那么也可以称为偏相关系数.偏相关系数是描述一个随机变量y 与多个随机变量X=(x1,x2,…......
2023-11-18
,n).记则其中,1p=(1,1,…,pn·)表示对角线元素为p1·,p2·,…,pn· 的对角矩阵.因此,经过变换后所得到的新数据矩阵B,可以看成是由对应矩阵P 经过中心化和标准化后得到的矩阵.设用于检验行与列是否不相关的χ2 统计量为其中,表示第(i,j)单元在检验行与列两个属性变量否不相关时对总χ2 统计量的贡献,有其中,χ2==T[tr]=T[tr]=T[tr],tr表示方阵SQ 的迹.......
2023-11-18
相关推荐