首页 理论教育决策树构建过程大数据挖掘在医药领域应用

决策树构建过程大数据挖掘在医药领域应用

【摘要】:表3-11肺炎数据集的ID3实验结果将上述数据集作为输入构建决策树,其实验结果如下:表3-11肺炎数据集的ID3实验结果图3-11构建肺炎病人数据集决策树通过运行算法代码,计算数据集每个属性的信息增益值,将信息增益值作为第一影响因素,通过三次计算,全部的信息增益为0或1,分类结束,得出决策树分类模型。表3-12肺炎数据集的ID3决策树分类效果由图3-11可知,基于Python的决策树分类算法能够运行,并能够实现测试样本的正确分类。

将上述数据集作为输入构建决策树,其实验结果如图3-11所示。

表3-11肺炎数据集的ID3实验结果将上述数据集作为输入构建决策树,其实验结果如下:

表3-11 肺炎数据集的ID3实验结果

图3-11 构建肺炎病人数据集决策树(www.chuimin.cn)

通过运行算法代码,计算数据集每个属性的信息增益值,将信息增益值作为第一影响因素,通过三次计算,全部的信息增益为0或1,分类结束,得出决策树分类模型。

下面以表3-10中前20个记录数据构造ID3决策树,以后10个记录数据做测试,实验结果如表3-12所示。

表3-12 肺炎数据集的ID3决策树分类效果

由图3-11可知,基于Python的决策树分类算法能够运行,并能够实现测试样本的正确分类。实验结果表明,第七个特征的信息增益为0.801最大,即最重要的影响因素为白细胞总数是否过高,而咯浓痰为第二主要影响因素,劳累度为第三影响因素。该算法先选择具有最大信息增益的特征作为根结点,根据该特征的值将训练样本分开为不同的子集,然后对不同的子集重复进行分类,直到信息增益全部为0或1时分类结束,根据分类结果构造一棵决策树。通过分类实验证明白细胞过高、咯浓痰、劳累度高的病人患有肺炎。但实验结果表明,ID3决策树返回相关实例的能力,即精确度相对较好;而识别所有相关实例的能力,即召回率相对较差;且调和平均指标,即F1的整体最佳模型出现在阈值0.58处,患病。