首页 理论教育使用多元统计分析随R展示和描述iris数据集

使用多元统计分析随R展示和描述iris数据集

【摘要】:iris数据集是R 自带的数据集,以下对该数据集进行描述和展示.(1)展示iris数据集的前几行>head(iris)结果如下:其中Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,分别表示(鸢尾花)花萼(Sepal)的长度,花萼的宽度,花瓣(Petal)的长度,花瓣的宽度以及每个观测值来自哪一种类.(2)对鸢尾花数据集的数据进行描

iris数据集是R 自带的数据集,以下对该数据集进行描述和展示.

(1)展示iris数据集的前几行

>head(iris)

结果如下:

其中Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,分别表示(鸢尾花)花萼(Sepal)的长度,花萼的宽度,花瓣(Petal)的长度,花瓣的宽度以及每个观测值来自哪一种类.

(2)对鸢尾花数据集的数据进行描述

>summary(iris)

结果如下:

从以上结果可以看出,summary给出的信息说明,5个变量的150个观测值分为三类:setosa,versicolor,virginica,并给出了每个变量(前4个变量)观测值的最小值、第一4分位数、中位数(也是第二4分位数)、均值、第三4分位数、最大值.

(3)使用Hmisc包中的函数“describe( )”来描述

第一次使用前请先安装Hmisc包:(www.chuimin.cn)

>install.packages("Hmisc")

>library(Hmisc)

>describe(iris)

结果如下:

从以上结果可以看出,describe给出的信息说明,这个数据集由5个变量,150个观测值组成,150个观测值分为三类:setosa,versicolor,virginica,还给出了每个变量(前4个变量)观测值的最小5个值和最大5个值等.

(4)三种鸢尾花的变量之间的相关性描述——数字化展示

以下为求三种鸢尾花变量之间的相关系数

(cor.all<-by(iris[,-5],INDICES=iris$Species,cor))

结果如下:

从以上计算结果可以看出,对于setosa种类的鸢尾花来说,花萼的宽度和长度之间的相关系数比较大,而其他两种鸢尾花(versicolor,virginica)则是花瓣的长度和花萼的长度也有较大的相关性.此外,对于versicolor种类的鸢尾花来说,花瓣的长度和宽度也有很大的相关性.