首页 理论教育大数据挖掘在医药领域的分类分析

大数据挖掘在医药领域的分类分析

【摘要】:分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。分类分析的用途:解释和预报。

分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。例如,表3-1是健康人(c=1)、硬化症患者(c=2)和冠心病患者(c=3)三种人群心电图的五个指标(x1-x5)数据,其中有19个样本是确定的分类,另又测出四个人的相关指标,试根据确定分类的样本对未确定的样本进行分类。

表3-1 心电图数据集

医院工作效率和医疗质量的评定是医院管理的一个基本课题,常要寻求用少数几项指标对整个医院工作做出快速可靠的评定。某单位曾对工作质量好、中、差的三类医院的治愈率、病死率、治愈者平均住院天数、临床初步诊断符合率等24项指标做了调查,现从中抽出质量优的(A类)和差的(B类)共20个医院的三项指标:X1床位使用率,X2治愈率,X3诊断指数进行研究,欲由这三项指标建立判别函数,Y=C1X1+C2X2+C3X3。求:各类别的描述特征。

表3-2 医院的三项指标数据集

肺炎是指由细菌、病毒、不典型致病菌病原体感染导致的肺部组织炎症性病变。引起肺炎的病原复杂,患者有呼吸困难、浓痰等症状,但症多不典型,易发生漏诊、错诊。

表3-3 肺炎数据集

(续表)

隐形眼镜是一种戴在眼球角膜上,用以矫正视力或保护眼睛的镜片。它不仅从外观和方便性方面给近视、远视、散光等屈光不正患者带来了很大的改善,而且视野宽阔、视物逼真。根据材料的软硬,它可分为硬性、半硬性、软性三种。

表3-4 配置隐形眼镜的数据集

1.分类分析基本概念

分类被认为是监督学习的一个实例,即通过比较事物之间的相似性,把具有某些共同点或相似特征的事物归属于一个不确定集合的逻辑方法,即学习可以获得正确识别观察的训练集的情况。相应的无监督程序称为聚类,并将涉及基于固有相似性或距离的某种度量的数据分组。

通常,各个观察结果分析为一组可量化的属性,不同的称为解释变量或特征。对这些属性可以进行不同的分类(例如,“A”“B”“AB”“O”,对于血型),序数(例如“大”“中”“小”),整数值(例如,电子邮件中特定单词的出现次数)或实际值(例如血压的测量值)。

分类分析通常都要设法建立一个判别函数,利用此函数进行判别。(www.chuimin.cn)

分类函数的一般形式:

Y=a1x1+a2x2+…+anxn(i=1,2,…,n)

其中,Y为判别分数(判别值),xi为反映研究对象特征的变量,ai为系数,也称为判别系数。

为了建立判别函数必须使用一个训练样本。一般而言,样本量n应在所使用自变量个数p的10~20倍以上时,函数才比较稳定;自变量个数p在8~10个之间时,函数的判别效果才可能比较理想。

比如,根据一些体征为阑尾炎的不同类型建立判别函数,就可以在病人入院时快速地判断他是否为危险的化脓性阑尾炎,以便及时手术,避免因耽误病情而穿孔。

分类分析的一般适用条件:(1)各自变量为连续性或有序分类变量。如果存在无序多分类变量,可以使用哑变量方式纳入。(2)样本来自一个多元正态总体。(3)各组的协方差矩阵相等,该条件类似于方差分析中的方差齐性。(4)变量间独立,无共线性。但是判别分析在违反这些适用条件时显得非常稳健,它们对结果的影响其实不大。分类分析的目的:做出以多个判别指标判别个体分类的判别函数式或概率公式。分类分析的资料:个体分两类或多类,判别指标全部为数值变量或全部为分类变量。分类分析的用途:解释和预报(主要用于计量诊断)。

按资料类型可将分类分析分为两种:计量资料判别分析,目的是做出以定量指标判别个体属性分类或等级的判别函数;计数资料判别分析,目的是做出以定性或等级指标判别个体属性分类或等级的概率公式。

按方法名称可将分类分析分为Fisher判别(计量资料)、Bayes公式判别法(计数资料)、Bayes判别(计量资料)、逐步判别(计量资料)。

实现分类的算法,特别是在具体实现中,被称为分类器。术语“分类器”有时也指由分类算法实现的数学函数,其将输入数据映射到类别。

跨领域的术语是多种多样的。在统计中,通常使用逻辑回归或类似程序进行分类,观察的属性称为解释变量(或独立变量、回归量等),要预测的类别称为结果,被认为是因变量的可能值。在机器学习中,观察通常被称为实例,解释变量被称为特征(被分组为特征向量),并且要预测的可能类别是类。其他领域可能使用不同的术语,例如,在社区生态学中,术语“分类”通常是指聚类分析,即一种无监督学习,而不是本书中所描述的监督学习。

2.分类分析使用场景

分类的主要用途和场景是“预测”,基于已有的样本预测新样本的所属类别,例如信用评级、风险等级、欺诈预测等。同时,它也是模式识别的重要组成部分,广泛应用到机器翻译、人脸识别、医学诊断、手写字符识别、指纹识别的图像识别、语音识别、视频识别的领域。另外,分类算法也可以用于知识抽取,通过模型找到潜在的规律,帮助业务得到可执行的规则。

提炼应用规则:为数据化运用提供规则,也是分类分析的主要应用方向。

提取变量特征:输入变量的重要性特征,然后提取权重较高的几个特征是分类分析的重点应用之一,也是数据归约和数据降维的重要方式。获取原始数据集并对数据进行预处理,将数据集放到分类算法中进行训练,然后在冲算法模型中提取特征权重信息。

处理缺失值:将缺失字段作为目标变量进行预测,从而得到较为可能的补全值。

分类分析算法的选取:文本分类时用到最多的是朴素贝叶斯。训练集比较小,那么选择高偏差且低方差的分类算法效果更好,如朴素贝叶斯、支持向量机,这些算法不容易过拟合;训练集比较大,选取何种方法都不会显著影响准确度;省时好操作选择用支持向量机,不要使用神经网络;重视算法准确度,那么选择算法精度高的算法,例如支持向量机、随机森林;想得到有关预测结果的概率信息,使用逻辑回归;需要清洗的决策规则,使用决策树