关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
1.数据获取与描述
随着生活水平的提高,糖尿病已经成为继心脑血管病、恶性肿瘤之后影响人类健康的第三大疾病。在中国,约有11%的中老年人是糖尿病患者,约有30%的中老年人是糖尿病高危人群或准糖尿病人。糖尿病引发的一系列健康问题困扰着众多家庭和社会,而防治糖尿病、减少糖尿病的危害成为全民保健、提高国民素质的一个重要方面。Ⅱ型糖尿病,又称非胰岛素依赖性糖尿病,指体内胰岛素分泌相对不足的糖尿病。虽然胰岛素分泌减少会引发血糖升高,但还具有一定的分泌功能,不依赖胰岛素也能控制血糖,常见于中老年人。《中国Ⅱ型糖尿病防治指南(2017年版)》指出,我国成人Ⅱ型糖尿病患病率(2013年)为10.4%,各民族有较大差异,肥胖人群糖尿病患病率升高了2倍,未诊断糖尿病比例达63%。
为了研究体质指数(BMI)、腰臀比(WHR)对Ⅱ型糖尿病患者血糖水平的影响,选取某时期内在某医院营养科咨询及检查的Ⅱ型糖尿病患者20例,每条记录包含年龄(Age)、病程(Duration)、体重指数(BMI)、腰臀比(WHR)、空腹血糖(FBG)等,但是有些记录中存在数据缺失,如表1-9所示。
表1-9 Ⅱ型糖尿病数据
(续表)
身体质量指数(简称体质指数,又称体重指数,英文为Body Mass Index,简称BMI),是用体重公斤数除以身高米数的平方得出的数字,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准。主要用于统计用途,当我们需要比较及分析一个人的体重对于不同高度的人所带来的健康影响时,BMI值是一个中立而可靠的指标,是《国家学生体质健康标准》规定的测试项目。
腰臀比(Waist-to-Hip Ratio,WHR)是腰围和臀围的比值,是判定中心性肥胖的重要指标。
2.缺失值处理
造成数据缺失的原因是多方面的,主要有以下几种:有些信息暂时无法获取,致使一部分属性值空缺出来;有些信息因为一些人为因素而丢失了;有些对象的某个或某些属性是不可用的,如一个未婚者的配偶姓名;获取这些信息的代价太大,从而未获取数据。
空值处理的重要性。空值的存在造成了以下影响:系统丢失了大量的有用信息;系统的不确定性更加显著;系统中的确定性成分更难把握;包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。(www.chuimin.cn)
空值处理的方法:(1)删除元组。将存在遗漏信息属性值的对象(记录)删除,从而得到一个完备的信息表。这种方法在对象有多个属性缺失值,被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下是非常有效的。然而这种方法丢弃了大量隐藏在这些对象中的信息,在信息表中对象很少的情况下会影响到结果的正确性,可能导致数据发生偏离,从而引出错误的结论。(2)不处理,直接在包含空值的数据上进行数据挖掘。这类方法包括贝叶斯网络和人工神经网络等。(3)数据补齐。这类方法是基于统计学原理用一定的值去填充空值,从而使信息表完备化。数据挖掘中常用的有以下几种补齐方法:第一,人工填写。这个方法产生数据偏离最小,是填充效果最好的一种。当数据规模很大、空值很多的时候,该方法是不可行的。第二,特殊值填充。将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值,如所有的空值都用“unknown”填充,这样将形成另一个概念,可能导致严重的数据偏离,一般不使用。第三,平均值填充。如果空值是数值属性,就使用该属性在其他所有对象的取值的平均值来填充该缺失的属性值。如果空值是非数值属性,就根据统计学中的众数原理,用该属性在其他所有对象出现频率最高的值来补齐该缺失的属性值。第四,热卡填充(就近补齐)。对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题选用不同的标准来对相似进行判定。第五,K最近邻法。先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。第六,使用所有可能的值填充。这种方法是用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。但是当数据量很大或者遗漏的属性值较多时,其计算的代价很大,可能的测试方案很多。第七,回归。基于完整的数据集,建立回归方程(模型)。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。第八,期望值最大化方法(EM)。在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,通过观测数据的边际分布可以对未知参数进行极大似然估计。它有一个重要前提——适用于大样本,要使有效样本的数量足够保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。
因为研究体质指数、腰臀比对Ⅱ型糖尿病患者血糖水平影响的数据记录数只有20条,直接删除不完整的记录会导致丢失大量有用信息,增加分析结果的不确定性。同时,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出,所以采用数据补齐方法对Ⅱ型糖尿病数据的缺失值进行处理。
Ⅱ型糖尿病数据集主要缺失的是身体质量指数(BMI)、腰臀比(WHR)和空腹血糖水平(FBG)这三个字段的值,分别采用平均值填充、K最近邻法、使用所有可能的值填充,具体Python算法如下:
表1-10 Ⅱ型糖尿病数据的缺失值填充结果
(续表)
注:表1-10中带*的数据为填充的数据。
有关大数据挖掘技术及其在医药领域的应用的文章
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
医疗数据类型的多样化,包括数值型数据、类别型数据、图像、文字、信号、语音、视频。高科技的医学检查设备每天都会产生数千兆字节数据。数学特征不显著。数据归属权问题、数据安全问题、法律诉讼问题等。图1-6医疗数据可及性医学数据类型及特点主要包括多系统多类型、数据量大、增量迅速、结构复杂。绝大多数的医疗数据是处于归档状态,检索是十分复杂的。缺乏数据标准,导致无法统一。......
2023-11-08
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
药品安全事件与人们的身体健康密切相关,大众对此关注度高,容易产生消极的非理性情绪。有报告指出,近90%的药品安全舆情事件均未取得令人满意的结果。Hadoop技术的飞速发展,提高了对大量数据进行处理的效率。基于Hadoop的朴素贝叶斯分类。本书通过其构造基于Hadoop的药品安全舆情话题跟踪模型与算法,完成对药品安全舆情信息的跟踪。......
2023-11-08
表7-1数据采集按照数据来源划分,大数据的三大主要来源为商业数据、互联网数据与物联网数据。物联网数据的特点主要包括:物联网中的数据量更大,物联网中的数据传输速率更高,物联网中的数据更加多样化,物联网对数据真实性的要求更高。随着物联网技术、智能设备的发展,这种基于传感器的数据采集会越来越多,相应对于其的研究和应用也会越来越重要。......
2023-11-08
相关推荐