首页 理论教育数据挖掘过程及其医药应用

数据挖掘过程及其医药应用

【摘要】:确定数据挖掘所需要的数据,对数据进行描述,初步探索数据,检查数据的质量。对各个模型进行评价,选择数据挖掘模型,建立模型。把数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型。在结果分析部分,解释并评估结果,其使用的分析方法一般应依数据挖掘操作而定。图1-13根据医疗业务诉求确定数据处理方案

CRISP—DM是CRoss-Industry Standard Process—Data Mining的缩写,由SPSS、NCR、Daimler-Benz在1996年制定。CRISP是当今数据挖掘业界通用流行的标准之一,它强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域。数据挖掘的步骤如下:第一,商业理解(Business Understanding)。找问题—确定商业目标,对现有资源的评估,确定问题是否能够通过数据挖掘来解决,确定数据挖掘的目标,制订数据挖掘计划。第二,数据理解(Data Understanding)。确定数据挖掘所需要的数据,对数据进行描述,初步探索数据,检查数据的质量。第三,数据准备(Data Preparation)。选择数据,清理数据,对数据进行重建,调整数据格式使之适合建模。第四,建立模型(Modeling)。对各个模型进行评价,选择数据挖掘模型,建立模型。第五,模型评估(Evaluation)。评估数据挖掘的结果,对整个数据挖掘过程的前期步骤进行评估,确定下一步应该怎么办,是发布模型还是对数据挖掘过程进行进一步的调整,产生新的模型。第六,模型发布(Deployment)。把数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型。

把商业经验溶入数据挖掘过程是数据挖掘成功的关键,因此,数据挖掘的流程可以简单地概括为以下五步:第一,定义问题。清晰地定义出业务问题,包括业务理解和数据理解,要确定数据挖掘的目的。第二,数据准备,包括选择数据和预处理数据。选择数据是在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理是进行数据再加工,包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。第三,数据挖掘和建模。根据数据功能的类型和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。第四,结果分析和模型评估。对数据挖掘的结果进行解释和评价,转换成能够最终被用户理解的知识。第五,模型的运用。将分析所得到的模型集成到业务信息系统的组织结构中去。

图1-12 数据挖掘和知识发现的基本步骤

数据的选择:根据某种标准选择数据,搜索所有与业务对象有关的内部和外部数据信息,并从中选择适用于数据挖掘应用的数据。

数据的预处理:包括清除和充实、研究数据的质量,为进一步分析做准备,并确定将要进行的挖掘操作的类型。(www.chuimin.cn)

数据的转换:删除丢失重要内容的记录,通过数据分类、格式变换等将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

数据挖掘:运用工具或算法,对所得到的经过转换的数据进行挖掘,在数据中发现模式和规律。

解释评价:将发现的模式解释为可用于决策的知识。在结果分析部分,解释并评估结果,其使用的分析方法一般应依数据挖掘操作而定。在知识的同化部分,将分析所得到的知识集成到业务信息系统的组织结构中去。

图1-13 根据医疗业务诉求确定数据处理方案