首页 理论教育大数据挖掘在医药领域的应用及功能

大数据挖掘在医药领域的应用及功能

【摘要】:数据挖掘的功能是指数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等。关联分析的目的是找出数据库中隐藏的关联网。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。

数据挖掘的功能是指数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的目标是从数据中发现隐含的、有意义的知识。具体的功能有以下七个方面:概念描述、关联分析、分类与预测、聚类分析、趋势分析(时间序列模式)、孤立点分析、偏差分析。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等。

1.概念描述

概念描述是对某类对象的内涵进行描述,并概括这类对象的有关特征。具体的描述分为特征性描述和区别性描述。特征性描述用于描述某类对象的共同特征。区别性描述用于描述不同类对象之间的区别。允许数据在多个抽象层概化,便于用户考察数据的一般行为。例如超市的销售数据,销售经理并不想了解每个客户的详细信息,而愿意观察到高层的数据;例如按地区对顾客分组,观察每组顾客的购买频率和顾客的收入等。

2.关联分析(Association Analysis)

关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。“啤酒和尿布”就是从大型超市的购物篮当中分析出的关联规则。

3.聚类分析(Clustering Analysis)

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。

聚类分析是客观地按被处理对象的特征分类,将有相同特征的对象归为一类。

聚类与分类的区别:分类规则需要预先定义类别和训练样本;聚类分析直接面向源数据,没有预先定义好的类别和训练样本的存在,所有记录都根据彼此的相似程度来加以归类。

聚类分析将数据按本身的相似性聚集在一起,然后对聚集状况进行分析解释。比如,在市场营销调查前,先将顾客群集化,再来分析每群顾客最喜欢哪一类促销,而不是对每个顾客都用相同的标准规则来分析。

4.分类(Classification)

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于描述和预测。(www.chuimin.cn)

分类是依照所分析对象的属性分门别类、加以定义、建立类组,如将信用卡申请人分为低、中、高风险群,或是将顾客分到事先定义好的族群。分类的关键是确定对数据按照什么标准或什么规则进行分类。因此,分类时,首先根据属性特征为每一种类别找到一个合理的描述或模型,即确定分类规则,再根据规则对数据进行分类。

5.预测(Predication)

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。预测是利用历史数据建立模型,再运用最新数据作为输入值,获得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围。比如,预测哪些顾客会在未来的半年内取消该公司的服务,或是预测哪些电话用户会申请增值服务等。

6.时间序列模式(Time-series Pattern)

时间序列模式是指从研究系统的指标特征数据中统计出的某种经常发生的时间序列。挖掘的目的是从时间序列数据库中找出频繁出现的子序列。时间序列周期分析是指对周期模式的挖掘,即在时序数据库中找出重复出现的模式。

趋势分析又称为时间序列分析,它是从相当长时间的发展中发现规律和趋势。趋势分析是时序数据挖掘最基本的内容。

趋势分析和关联分析相似,其目的也是为了挖掘出数据之间的联系,但趋势分析的侧重点在于分析数据间的前后因果关系

7.偏差分析(Deviation Analysis)

在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中的数据存在异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。孤立点是数据库中包含的一些与数据的一般行为或模型不一致的数据。大部分的数据挖掘方法将孤立点视为噪声或异常丢弃,而对某些应用,如欺骗检测,孤立点数据可能更有价值。孤立点数据分析又称作孤立点挖掘。

偏差分析又称为比较分析,它是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。

偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差量值随时间的变化等。寻找出偏差的数据并对其进行分析是很有意义的。