在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.以下对鸢尾花iris数据集进行聚类分析,代码如下:>data(iris);attach(iris)>iris.hc1<-hclust(dist(......
2023-11-18
表7-1给出了我国31个省、市、自治区1999年城镇居民家庭平均每人全年消费支出的8个指标:
x1:人均食品支出(元、人);
x2:人均衣着商品支出(元、人);
x3:人均家庭设备用品及服务支出(元、人);
x4:人均医疗保健支出(元、人);
x5:人均交通和通讯支出(元、人);
x7:人均居住支出(元、人);
x8:人均杂项商品和服务支出(元、人).
表7-1 全国城镇居民平均每人全年消费性支出的数据
(续表)
说明:在表7-1中,序号1—31,分别代表:北京,天津,河北,山西,内蒙古,辽宁,吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南,湖北,湖南,广东,广西,海南,重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆.
以下根据表7-1导入数据并画聚类图,其代码如下:
>x1=c(2959.19,2459.77,1495.63,1046.33,1303.97,1730.84,
+1561.86,1410.11,3712.31,2207.58,2629.16,1844.78,
+2709.46,1563.78,1675.75,1427.65,1783.43,1942.23,
+3055.17,2033.87,2057.86,2303.29,1974.28,1673.82,
+2194.25,2646.61,1472.95,1525.57,1654.69,1375.46,
+1608.82)
>x2=c(730.79,495.47,515.90,477.77,524.29,553.90,492.42,
+510.71,550.74,449.37,557.32,430.29,428.11,303.65,
+613.32,431.79,511.88,512.27,353.23,300.82,186.44,
+589.99,507.76,437.75,537.01,839.70,390.89,472.98,
+437.77,480.99,536.05)
>x3=c(749.41,697.33,362.37,290.15,254.83,246.91,200.49,
+211.88,893.37,572.40,689.73,271.28,334.12,233.81,
+550.71,288.55,282.84,401.39,564.56,338.65,202.72,
+516.21,344.79,461.61,369.07,204.44,447.95,328.90,
+258.78,273.84,432.46)
>x4=c(513.34,302.87,285.32,208.57,192.17,279.81,218.36,
+277.11,346.93,211.92,435.69,126.33,160.77,107.90,
+219.79,208.14,201.01,206.06,356.27,157.78,171.79,
+236.55,203.21,153.32,249.54,209.11,259.51,219.86,
+303.00,317.32,235.82)
>x5=c(467.87,284.19,272.95,201.50,249.81,239.18,220.69,
+224.65,527.00,302.09,514.66,250.56,405.14,209.70,
+272.59,217.00,237.60,321.29,811.88,329.06,329.65,
+403.92,240.24,254.66,290.84,379.30,230.61,206.65,
+244.93,251.08,250.28)(www.chuimin.cn)
>x6=c(1141.82,735.97,540.58,414.72,463.09,445.20,459.62,
+376.82,1034.98,585.23,795.87,513.18,461.67,393.99,
+599.43,337.76,617.74,697.22,873.06,621.74,477.17,
+730.05,575.10,445.59,561.91,371.04,490.90,449.69,
+479.53,424.75,541.30)
>x7=c(478.42,570.84,364.91,281.84,287.87,330.24,360.48,
+317.61,720.33,429.77,575.76,314.00,535.13,509.39,
+371.62,421.31,523.52,492.60,1082.82,587.02,312.93,
+438.41,430.36,346.11,407.70,269.59,469.10,249.66,
+288.56,228.73,344.85)
>x8=c(457.64,305.08,188.63,212.10,192.96,163.86,147.76,
+152.85,462.03,252.54,323.36,151.39,232.29,160.12,
+211.84,165.32,182.52,226.45,420.81,218.27,279.19,
+225.80,223.46,191.48,330.95,389.33,191.34,228.19,
+236.51,195.93,214.40)
>X=data.frame(x1,x2,x3,x4,x5,x6,x7,x8)
>row.names=c("1","2","3","4","5","6","7","8","9","10",
+"11","12","13","14","15","16","17","18","19","20",
+"21","22","23","24","25","26","27","28","29","30","31"),
>hc1<-hclust(d);hc2<-hclust(d,"average")
>hc3<-hclust(d,"complete")
>opar<-par(mfrow=c(2,1),mar=c(5.2,4,0,0))
>plot(hc1,hang=-1);re1<-rect.hclust(hc1,k=4,border="red")
>plot(hc2,hang=-1);re2<-rect.hclust(hc2,k=4,border="red")
>par(opar)
结果如图7-2所示.
图7-2 聚类图
根据图7-2,按照最长距离法(complete),分为四类:
第一类:西藏(序号:26)
第二类:广东(序号:19)
第三类:天津(序号:2),浙江(序号:11),北京(序号:1),上海(序号:9)
第四类:除上述第一,二,三类的其他省、市、自治区
根据图7-3,按照类平均法(average),分为四类:
第一类:西藏(序号:26)
第二类:广东(序号:19)
第三类:上海(序号:9),北京(序号:1),浙江(序号:11)
第四类:除上述第一,二,三类的其他省、市、自治区
以上两种聚类法的结果基本相同,只是天津有所不同(在最长距离法中,天津在第三类;而在类平均法中天津在第四类).
有关应用多元统计分析:基于R的实验的文章
在实验2.3.2中曾对iris数据集进行描述和展示,在实验2.3.4中曾对iris数据集进行可视化.以下将对iris数据集进行进行聚类分析.根据实验2.3.4,我们只知道数据集内有三个品种鸢尾花而不知道每朵花的真正分类,只能凭借花萼及花瓣的长度和宽度分类.以下对鸢尾花iris数据集进行聚类分析,代码如下:>data(iris);attach(iris)>iris.hc1<-hclust(dist(......
2023-11-18
,xp,用向量表示X=(x1,x2,…,βp 为待估参数.Logistic回归模型中的参数估计常用极大似然估计法得到.设y 是0-1变量,x1,x2,…,n),取P=πi,P=1-πi,则yi 的联合概率函数为,yi=0,1;i=1,2,…,yn 的似然函数为对数似然函数为对于Logistic回归,将代入,得令=0,可以用数值计算求待估参数β0,β1,β2,…,βp 的极大似然估计.用R 软件可以解决Logistic回归模型中的参数估计、检验等问题.......
2023-11-18
如果F 检验的结论是拒绝H0,则说明因素A 的r 个水平有显著差异,也就是说,r 个均值之间有显著差异.但这并不意味着所有均值之间都有显著差异,这时还需要对每一对μi 和μj 作一一比较.通常采用多重t检验方法进行多重比较.这种方法本质上就是针对每组数据进行t检验,只不过估计方差时利用的是全部数据,因而自由度变大.具体地说,要比较第i组和第j 组均值,即检验H0:μi=μj,i≠j,i,j=1,2,…......
2023-11-18
回归分析的基本思想和方法以及“回归”名词的由来,要归功于英国统计学家高尔顿(Galton).高尔顿和他的学生、现代统计学的奠基者之一皮尔逊(Pearson)在研究父母身高与其子女身高的遗传关系时,观察了1 078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年儿子的身高作为y,将这些数据画成散点图,发现趋势近似一条直线=33.73+0.516x(单位:英寸,1英寸=2.54 cm).这表明:......
2023-11-18
Harman74.cor数据集是R 软件自带的数据集,以下对该数据集进行因子分析.(1)查看Harman74数据集中(前面)部分信息Harman74.cor数据集,包含了对芝加哥郊区145名七年级和八年级儿童进行的24 项心理测试指标的相关系数矩阵.其中的24 项心理测试指标包括:VisualPerception,Cubes,PaperFormBoard,Flags,GeneralInformat......
2023-11-18
多元统计分析是统计学中应用性很强的一个分支,它的应用范围十分广泛.多元统计分析可以应用于几乎所有的领域,主要包括经济学、农业、地质学、医学、工业、气象学、金融、精算、物理学、地理学、军事科学、文学、法律、环境科学、考古学、体育科学、遗传学、教育学、生物学、管理科学、水文学等,还有一些交叉学科或方向等.多元统计分析的应用实在是难以一一罗列,以下简要地介绍一下多元统计分析在文学、数据挖掘(作为交叉学科......
2023-11-18
对R 自带的stackloss数据集进行逐步回归.(1)首先显示stackloss数据集的信息其中,变量为stack.loss(氨气损失百分比),Air.Flow(空气流量),Water.Temp(水温),Acid.Conc.(硝酸浓度).(2)计算变量间的相关性——相关系数>cor(stackloss)结果如下:(3)散布图矩阵>library(car)>scatterplotMatrix(st......
2023-11-18
在自然科学和社会科学的研究中,研究对象用某种方法已划分为若干类型.当得到一个新的样本数据(通常为多元数据),要确定该样品属于已知类型中哪一类,这类问题属于判别分析(discriminate analysis).判别分析是以判别个体所属群体的一种统计方法,它产生于20世纪30年代.近些年来,判别分析在许多领域中得到广泛应用.人们常说“像诸葛亮那么神机妙算”“像泰山那么稳固”“如钻石那样坚硬”等等.看......
2023-11-18
相关推荐