数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
将上述数据集作为输入构建决策树,其实验结果如图3-11所示。
表3-11肺炎数据集的ID3实验结果将上述数据集作为输入构建决策树,其实验结果如下:
表3-11 肺炎数据集的ID3实验结果
图3-11 构建肺炎病人数据集决策树(www.chuimin.cn)
通过运行算法代码,计算数据集每个属性的信息增益值,将信息增益值作为第一影响因素,通过三次计算,全部的信息增益为0或1,分类结束,得出决策树分类模型。
下面以表3-10中前20个记录数据构造ID3决策树,以后10个记录数据做测试,实验结果如表3-12所示。
表3-12 肺炎数据集的ID3决策树分类效果
由图3-11可知,基于Python的决策树分类算法能够运行,并能够实现测试样本的正确分类。实验结果表明,第七个特征的信息增益为0.801最大,即最重要的影响因素为白细胞总数是否过高,而咯浓痰为第二主要影响因素,劳累度为第三影响因素。该算法先选择具有最大信息增益的特征作为根结点,根据该特征的值将训练样本分开为不同的子集,然后对不同的子集重复进行分类,直到信息增益全部为0或1时分类结束,根据分类结果构造一棵决策树。通过分类实验证明白细胞过高、咯浓痰、劳累度高的病人患有肺炎。但实验结果表明,ID3决策树返回相关实例的能力,即精确度相对较好;而识别所有相关实例的能力,即召回率相对较差;且调和平均指标,即F1的整体最佳模型出现在阈值0.58处,患病。
有关大数据挖掘技术及其在医药领域的应用的文章
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
数据挖掘的功能是指数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等。关联分析的目的是找出数据库中隐藏的关联网。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。......
2023-11-08
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
确定数据挖掘所需要的数据,对数据进行描述,初步探索数据,检查数据的质量。对各个模型进行评价,选择数据挖掘模型,建立模型。把数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型。在结果分析部分,解释并评估结果,其使用的分析方法一般应依数据挖掘操作而定。图1-13根据医疗业务诉求确定数据处理方案......
2023-11-08
分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。分类分析的用途:解释和预报。......
2023-11-08
健康医疗大数据典型应用。可以构建大数据平台来收集不同病例和治疗方案以及病人的基本特征,建立针对疾病特点的数据库,帮助医生进行疾病诊断。医疗行业的大数据应用一直在进行,但是数据并没有完全打通,基本都是孤岛数据,没办法进行大规模的应用。健康医疗大数据在医疗行业治理方面的典型应用:卫生体制改革评估监测。大数据在疾病预测中的作用。大数据在临床业务、付款和定价、研发、大数据基因等方面的应用。......
2023-11-08
相关推荐