首页 理论教育心律失常数据集的决策树分析|大数据挖掘在医药领域的应用

心律失常数据集的决策树分析|大数据挖掘在医药领域的应用

【摘要】:心律失常数据集的决策树分类效果如表5-10所示。根据测评机制和实验结果可以看出,整体的决策树的分类效果良好。表5-11基于决策树的心律失常数据集的十折交叉验证分类效果表5-12基于决策树的心律失常数据集的十折交叉验证分类效果从表5-12中的F1看出,决策树分类器对“正常”这一类样本的分类效果最佳;从总平均值看,此分类效果较好。

1.基于Hadoop的心律失常数据集的决策树算法

算法执行过程如下:

Step1执行命令,准备输入文件和加载算法程序文件

Step1.1执行命令cd/usr/local/run,进入hadoop运行路径;

Step1.2执行命令hadoop fs-mkdir-p/jobs/bayes/input/data,创建输入文件目录;

Step1.3执行命令hadoop fs-put test.txt/jobs/bayes/input/data/,进入本地txt文件所在目录,上传txt文件到hdfs;

Step2:预处理数据(Mapper阶段)

Step 2.1 line.rstrip('\n').split(',')解析全数据;

Step 2.2 x.append(list(map(eval,item))[1:280])将特征向量加入列表x;

Step 2.3 y.append(list(map(eval,item))[280])将数据特征加入列表y。

Step3:在Hadoop平台利用数据训练的过程,并输出模型(Reducer阶段)

Step3.1 x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.5,stratify=y):随机分层抽样划分训练集和测试集,保证训练集和测试集数据同分布;

Step3.2 DecisionTreeClassifier(criterion="entropy")按照信息熵计算建立决策树模型;

Step3.3 dtc.fit(x_train,y_train)在划分好的训练集上训练数据。

Step4:用输出的模型对测试集文档进行分类测试,输出每个测试文档的分类结果和计算评价指标(Reducer阶段)

Step4.1 clf.predict(x_test)输入训练集特征向量,输出决策树模型预测分类类别;

Step4.2 classification_report(y_test,y_pred)输入预测向量和真实标签向量,按格式输出每一个类别的precision、recall、fl-score值;

Step4.3 print(t)打印评价指标表。

2.实验设计(www.chuimin.cn)

本节采用的实验环境、Hadoop平台配置、实验数据和测评机制与前节相同。

3.实验过程与结果

随机选取数据集中的一部分数据作为训练集训练分类模型,剩余数据(226条)作为测试集来验证分类模型的性能。

本节实验过程:(1)启动hadoop-master;(2)启动hadoop-slavel;(3)启动hadoop-slave2;(4)启动MobaXterm并连接到主机;(5)启动hadoop集群;(6)启动hadoop集群;(7)创建目录并将.txt上传到HDFS中的路径;(8)运行hadoopStreaming命令,与5.5.1节相似。

决策树分类测试实验结果如图5-42所示。心律失常数据集的决策树分类效果如表5-10所示。

图5-42 决策树分类运行结果

表5-10 心律失常数据集的决策树分类效果

表5-10是心律失常数据集的决策树分类效果。根据测评机制和实验结果可以看出,整体的决策树的分类效果良好。且由F1看出,此分类器的对“正常”这一类样本的分类效果最佳。

4.十折交叉验证

十折交叉验证,英文名叫作10-fold cross-validation,用来测试算法准确性,是常用的测试方法。将数据集分成十份,轮流将其中九份作为训练数据,一份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。十次结果的正确率(或差错率)的平均值作为对算法精度的估计。每次实验的结果如表5-11所示,最终实验结果如表5-12所示。

表5-11 基于决策树的心律失常数据集的十折交叉验证分类效果

表5-12 基于决策树的心律失常数据集的十折交叉验证分类效果

从表5-12中的F1看出,决策树分类器对“正常”这一类样本的分类效果最佳;从总平均值看,此分类效果较好。

本节在进行基于Hadoop的医学数据分类算法研究时,以部分心律失常数据(实例数≥44)作为实验数据集,利用决策树分类算法在Hadoop平台上实现算法。实验结果显示此分类对“正常”这一类样本的分类效果最佳。从整体来看,决策树分类模型良好。