分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。分类分析的用途:解释和预报。......
2023-11-08
算法执行过程如下:
Step1执行命令,准备输入文件和加载算法程序文件
Step1.1执行命令cd/usr/local/run,进入hadoop运行路径;
Step1.2执行命令hadoop fs-mkdir-p/jobs/bayes/input/data,创建输入文件目录;
Step1.3执行命令hadoop fs-put test.txt/jobs/bayes/input/data/,进入本地txt文件所在目录,上传txt文件到hdfs;
Step2:预处理数据(Mapper阶段)
Step 2.1 line.rstrip('\n').split(',')解析全数据;
Step 2.2 x.append(list(map(eval,item))[1:280])将特征向量加入列表x;
Step 2.3 y.append(list(map(eval,item))[280])将数据特征加入列表y。
Step3:在Hadoop平台利用数据训练的过程,并输出模型(Reducer阶段)
Step3.1 x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.5,stratify=y):随机分层抽样划分训练集和测试集,保证训练集和测试集数据同分布;
Step3.2 DecisionTreeClassifier(criterion="entropy")按照信息熵计算建立决策树模型;
Step3.3 dtc.fit(x_train,y_train)在划分好的训练集上训练数据。
Step4:用输出的模型对测试集文档进行分类测试,输出每个测试文档的分类结果和计算评价指标(Reducer阶段)
Step4.1 clf.predict(x_test)输入训练集特征向量,输出决策树模型预测分类类别;
Step4.2 classification_report(y_test,y_pred)输入预测向量和真实标签向量,按格式输出每一个类别的precision、recall、fl-score值;
Step4.3 print(t)打印评价指标表。
2.实验设计(www.chuimin.cn)
本节采用的实验环境、Hadoop平台配置、实验数据和测评机制与前节相同。
3.实验过程与结果
随机选取数据集中的一部分数据作为训练集训练分类模型,剩余数据(226条)作为测试集来验证分类模型的性能。
本节实验过程:(1)启动hadoop-master;(2)启动hadoop-slavel;(3)启动hadoop-slave2;(4)启动MobaXterm并连接到主机;(5)启动hadoop集群;(6)启动hadoop集群;(7)创建目录并将.txt上传到HDFS中的路径;(8)运行hadoopStreaming命令,与5.5.1节相似。
决策树分类测试实验结果如图5-42所示。心律失常数据集的决策树分类效果如表5-10所示。
图5-42 决策树分类运行结果
表5-10 心律失常数据集的决策树分类效果
表5-10是心律失常数据集的决策树分类效果。根据测评机制和实验结果可以看出,整体的决策树的分类效果良好。且由F1看出,此分类器的对“正常”这一类样本的分类效果最佳。
4.十折交叉验证
十折交叉验证,英文名叫作10-fold cross-validation,用来测试算法准确性,是常用的测试方法。将数据集分成十份,轮流将其中九份作为训练数据,一份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。十次结果的正确率(或差错率)的平均值作为对算法精度的估计。每次实验的结果如表5-11所示,最终实验结果如表5-12所示。
表5-11 基于决策树的心律失常数据集的十折交叉验证分类效果
表5-12 基于决策树的心律失常数据集的十折交叉验证分类效果
从表5-12中的F1看出,决策树分类器对“正常”这一类样本的分类效果最佳;从总平均值看,此分类效果较好。
本节在进行基于Hadoop的医学数据分类算法研究时,以部分心律失常数据(实例数≥44)作为实验数据集,利用决策树分类算法在Hadoop平台上实现算法。实验结果显示此分类对“正常”这一类样本的分类效果最佳。从整体来看,决策树分类模型良好。
有关大数据挖掘技术及其在医药领域的应用的文章
分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。分类分析的用途:解释和预报。......
2023-11-08
表3-11肺炎数据集的ID3实验结果将上述数据集作为输入构建决策树,其实验结果如下:表3-11肺炎数据集的ID3实验结果图3-11构建肺炎病人数据集决策树通过运行算法代码,计算数据集每个属性的信息增益值,将信息增益值作为第一影响因素,通过三次计算,全部的信息增益为0或1,分类结束,得出决策树分类模型。表3-12肺炎数据集的ID3决策树分类效果由图3-11可知,基于Python的决策树分类算法能够运行,并能够实现测试样本的正确分类。......
2023-11-08
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
实验数据本书采用的数据集是心律失常数据集,曾被用于“一种用于心律失常分析的有监督的机器学习算法”,目的是用心电图记录来确定心律失常的类型。表5-4所示的是心律失常数据集的部分数据。表5-4心律失常数据集表5-5手工标记的实验数据类别此心律失常数据集有452条数据,每条数据有279个属性。在幼儿及心动过速的情况下,PR间期相应缩短。在老年人及心动过缓的情况下,PR间期可略延长,但不超过0.22s。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
数据挖掘的功能是指数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等。关联分析的目的是找出数据库中隐藏的关联网。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。......
2023-11-08
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2023-11-08
相关推荐