首页 理论教育医药领域大数据挖掘技术处理Ⅱ型糖尿病缺失值

医药领域大数据挖掘技术处理Ⅱ型糖尿病缺失值

【摘要】:Ⅱ型糖尿病,又称非胰岛素依赖性糖尿病,指体内胰岛素分泌相对不足的糖尿病。因为研究体质指数、腰臀比对Ⅱ型糖尿病患者血糖水平影响的数据记录数只有20条,直接删除不完整的记录会导致丢失大量有用信息,增加分析结果的不确定性。同时,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出,所以采用数据补齐方法对Ⅱ型糖尿病数据的缺失值进行处理。

1.数据获取与描述

随着生活水平的提高,糖尿病已经成为继心脑血管病、恶性肿瘤之后影响人类健康的第三大疾病。在中国,约有11%的中老年人是糖尿病患者,约有30%的中老年人是糖尿病高危人群或准糖尿病人。糖尿病引发的一系列健康问题困扰着众多家庭和社会,而防治糖尿病、减少糖尿病的危害成为全民保健、提高国民素质的一个重要方面。Ⅱ型糖尿病,又称非胰岛素依赖性糖尿病,指体内胰岛素分泌相对不足的糖尿病。虽然胰岛素分泌减少会引发血糖升高,但还具有一定的分泌功能,不依赖胰岛素也能控制血糖,常见于中老年人。《中国Ⅱ型糖尿病防治指南(2017年版)》指出,我国成人Ⅱ型糖尿病患病率(2013年)为10.4%,各民族有较大差异,肥胖人群糖尿病患病率升高了2倍,未诊断糖尿病比例达63%。

为了研究体质指数(BMI)、腰臀比(WHR)对Ⅱ型糖尿病患者血糖水平的影响,选取某时期内在某医院营养科咨询及检查的Ⅱ型糖尿病患者20例,每条记录包含年龄(Age)、病程(Duration)、体重指数(BMI)、腰臀比(WHR)、空腹血糖(FBG)等,但是有些记录中存在数据缺失,如表1-9所示。

表1-9 Ⅱ型糖尿病数据

(续表)

身体质量指数(简称体质指数,又称体重指数,英文为Body Mass Index,简称BMI),是用体重公斤数除以身高米数的平方得出的数字,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准。主要用于统计用途,当我们需要比较及分析一个人的体重对于不同高度的人所带来的健康影响时,BMI值是一个中立而可靠的指标,是《国家学生体质健康标准》规定的测试项目。

腰臀比(Waist-to-Hip Ratio,WHR)是腰围和臀围的比值,是判定中心性肥胖的重要指标。

2.缺失值处理

造成数据缺失的原因是多方面的,主要有以下几种:有些信息暂时无法获取,致使一部分属性值空缺出来;有些信息因为一些人为因素而丢失了;有些对象的某个或某些属性是不可用的,如一个未婚者的配偶姓名;获取这些信息的代价太大,从而未获取数据。

空值处理的重要性。空值的存在造成了以下影响:系统丢失了大量的有用信息;系统的不确定性更加显著;系统中的确定性成分更难把握;包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。(www.chuimin.cn)

空值处理的方法:(1)删除元组。将存在遗漏信息属性值的对象(记录)删除,从而得到一个完备的信息表。这种方法在对象有多个属性缺失值,被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下是非常有效的。然而这种方法丢弃了大量隐藏在这些对象中的信息,在信息表中对象很少的情况下会影响到结果的正确性,可能导致数据发生偏离,从而引出错误的结论。(2)不处理,直接在包含空值的数据上进行数据挖掘。这类方法包括贝叶斯网络和人工神经网络等。(3)数据补齐。这类方法是基于统计学原理用一定的值去填充空值,从而使信息表完备化。数据挖掘中常用的有以下几种补齐方法:第一,人工填写。这个方法产生数据偏离最小,是填充效果最好的一种。当数据规模很大、空值很多的时候,该方法是不可行的。第二,特殊值填充。将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值,如所有的空值都用“unknown”填充,这样将形成另一个概念,可能导致严重的数据偏离,一般不使用。第三,平均值填充。如果空值是数值属性,就使用该属性在其他所有对象的取值的平均值来填充该缺失的属性值。如果空值是非数值属性,就根据统计学中的众数原理,用该属性在其他所有对象出现频率最高的值来补齐该缺失的属性值。第四,热卡填充(就近补齐)。对于一个包含空值的对象,热卡填充法在完整数据中找到一个与它最相似的对象,然后用这个相似对象的值来进行填充。不同的问题选用不同的标准来对相似进行判定。第五,K最近邻法。先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。第六,使用所有可能的值填充。这种方法是用空缺属性值的所有可能的属性取值来填充,能够得到较好的补齐效果。但是当数据量很大或者遗漏的属性值较多时,其计算的代价很大,可能的测试方案很多。第七,回归。基于完整的数据集,建立回归方程(模型)。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。第八,期望值最大化方法(EM)。在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,通过观测数据的边际分布可以对未知参数进行极大似然估计。它有一个重要前提——适用于大样本,要使有效样本的数量足够保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。

因为研究体质指数、腰臀比对Ⅱ型糖尿病患者血糖水平影响的数据记录数只有20条,直接删除不完整的记录会导致丢失大量有用信息,增加分析结果的不确定性。同时,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出,所以采用数据补齐方法对Ⅱ型糖尿病数据的缺失值进行处理。

Ⅱ型糖尿病数据集主要缺失的是身体质量指数(BMI)、腰臀比(WHR)和空腹血糖水平(FBG)这三个字段的值,分别采用平均值填充、K最近邻法、使用所有可能的值填充,具体Python算法如下:

表1-10 Ⅱ型糖尿病数据的缺失值填充结果

(续表)

注:表1-10中带*的数据为填充的数据。