数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2025-09-30
1.基于Hadoop的心律失常数据集的决策树算法
算法执行过程如下:
Step1执行命令,准备输入文件和加载算法程序文件
Step1.1执行命令cd/usr/local/run,进入hadoop运行路径;
Step1.2执行命令hadoop fs-mkdir-p/jobs/bayes/input/data,创建输入文件目录;
Step1.3执行命令hadoop fs-put test.txt/jobs/bayes/input/data/,进入本地txt文件所在目录,上传txt文件到hdfs;
Step2:预处理数据(Mapper阶段)
Step 2.1 line.rstrip('\n').split(',')解析全数据;
Step 2.2 x.append(list(map(eval,item))[1:280])将特征向量加入列表x;
Step 2.3 y.append(list(map(eval,item))[280])将数据特征加入列表y。
Step3:在Hadoop平台利用数据训练的过程,并输出模型(Reducer阶段)
Step3.1 x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.5,stratify=y):随机分层抽样划分训练集和测试集,保证训练集和测试集数据同分布;
Step3.2 DecisionTreeClassifier(criterion="entropy")按照信息熵计算建立决策树模型;
Step3.3 dtc.fit(x_train,y_train)在划分好的训练集上训练数据。
Step4:用输出的模型对测试集文档进行分类测试,输出每个测试文档的分类结果和计算评价指标(Reducer阶段)
Step4.1 clf.predict(x_test)输入训练集特征向量,输出决策树模型预测分类类别;
Step4.2 classification_report(y_test,y_pred)输入预测向量和真实标签向量,按格式输出每一个类别的precision、recall、fl-score值;
Step4.3 print(t)打印评价指标表。
2.实验设计(https://www.chuimin.cn)
本节采用的实验环境、Hadoop平台配置、实验数据和测评机制与前节相同。
3.实验过程与结果
随机选取数据集中的一部分数据作为训练集训练分类模型,剩余数据(226条)作为测试集来验证分类模型的性能。
本节实验过程:(1)启动hadoop-master;(2)启动hadoop-slavel;(3)启动hadoop-slave2;(4)启动MobaXterm并连接到主机;(5)启动hadoop集群;(6)启动hadoop集群;(7)创建目录并将.txt上传到HDFS中的路径;(8)运行hadoopStreaming命令,与5.5.1节相似。
决策树分类测试实验结果如图5-42所示。心律失常数据集的决策树分类效果如表5-10所示。
图5-42 决策树分类运行结果
表5-10 心律失常数据集的决策树分类效果
表5-10是心律失常数据集的决策树分类效果。根据测评机制和实验结果可以看出,整体的决策树的分类效果良好。且由F1看出,此分类器的对“正常”这一类样本的分类效果最佳。
4.十折交叉验证
十折交叉验证,英文名叫作10-fold cross-validation,用来测试算法准确性,是常用的测试方法。将数据集分成十份,轮流将其中九份作为训练数据,一份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。十次结果的正确率(或差错率)的平均值作为对算法精度的估计。每次实验的结果如表5-11所示,最终实验结果如表5-12所示。
表5-11 基于决策树的心律失常数据集的十折交叉验证分类效果
表5-12 基于决策树的心律失常数据集的十折交叉验证分类效果
从表5-12中的F1看出,决策树分类器对“正常”这一类样本的分类效果最佳;从总平均值看,此分类效果较好。
本节在进行基于Hadoop的医学数据分类算法研究时,以部分心律失常数据(实例数≥44)作为实验数据集,利用决策树分类算法在Hadoop平台上实现算法。实验结果显示此分类对“正常”这一类样本的分类效果最佳。从整体来看,决策树分类模型良好。
相关文章
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2025-09-30
分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。分类分析的用途:解释和预报。......
2025-09-30
健康医疗大数据典型应用。可以构建大数据平台来收集不同病例和治疗方案以及病人的基本特征,建立针对疾病特点的数据库,帮助医生进行疾病诊断。医疗行业的大数据应用一直在进行,但是数据并没有完全打通,基本都是孤岛数据,没办法进行大规模的应用。健康医疗大数据在医疗行业治理方面的典型应用:卫生体制改革评估监测。大数据在疾病预测中的作用。大数据在临床业务、付款和定价、研发、大数据基因等方面的应用。......
2025-09-30
数据挖掘的功能是指数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等。关联分析的目的是找出数据库中隐藏的关联网。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。......
2025-09-30
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2025-09-30
医疗数据类型的多样化,包括数值型数据、类别型数据、图像、文字、信号、语音、视频。高科技的医学检查设备每天都会产生数千兆字节数据。数学特征不显著。数据归属权问题、数据安全问题、法律诉讼问题等。图1-6医疗数据可及性医学数据类型及特点主要包括多系统多类型、数据量大、增量迅速、结构复杂。绝大多数的医疗数据是处于归档状态,检索是十分复杂的。缺乏数据标准,导致无法统一。......
2025-09-30
数据库由数据库管理系统统一管理,数据的插入、修改和检索均要通过数据库管理系统进行。软件主要包括操作系统、各种宿主语言、实用程序以及数据库管理系统。数据库管理系统是一种系统软件,它的主要功能是维护数据库并有效地访问数据库中任意部分数据。对数据库的维护包括保持数据的完整性、一致性和安全性。数据仓库的多维特征满足以多维数据为核心的多维数据分析。......
2025-09-30
聚类分析的算法可以分为划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等,其中,前两种方法最常用。图4-6层次聚类法示例4.基于网格的方法基于网格的聚类方法采用一个网格数据结构,把对象空间量化为有限数目的单元,形成了一个网格结构。......
2025-09-30
相关推荐