首页 理论教育医药领域的关联规则挖掘

医药领域的关联规则挖掘

【摘要】:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。在单维的关联规则中,只涉及数据的一个维,如用户购买的物品。检查冗余的多层关联规则:挖掘多层关联规则时,由于项间的“祖先”关系,有些发现的规则将是冗余的。挖掘多维关联规则的技术。

1.关联规则处理的变量

关联规则处理的变量可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理。当然数值型关联规则中也可以包含种类变量。

关联规则中的数据,可以分为单维的和多维的。在单维的关联规则中,只涉及数据的一个维,如用户购买的物品。换句话说,单维关联规则是处理单个属性中的一些关系,例如啤酒=>尿布,这条规则只涉及用户购买的物品;在多维的关联规则中,要处理的数据将会涉及多个维。多维关联规则是处理各个属性之间的某些关系。

关联规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;在多层的关联规则中,对数据的多层性已经进行了充分的考虑。项通常具有层次,底层的项通常支持度也低,某些特定层的规则可能更有意义。交易数据库可以按照维或层编码,可以进行共享的多维挖掘。

2.多层关联规则

在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的。通常,事务数据库中的数据也是根据维和概念分层来进行储存的,这为从事务数据库中挖掘不同层次的关联规则提供了可能。在多个抽象层挖掘关联规则,并在不同的抽象层进行转化,是数据挖掘系统应该具有的能力。挖掘多层关联规则的方法:通常,多层关联规则的挖掘还是使用置信度—支持度框架,可以采用自上向下策略;(请注意:概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度)由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计算累加计数;每一层的关联规则挖掘可以使用Apriori等多种方法。

多层关联的一致支持度:对所有层都使用一致的最小支持度。优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。缺点:最小支持度值设置困难。太高,将丢掉出现在较低抽象层中有意义的关联规则;太低,会在较高层产生太多无兴趣的规则。

多层关联的递减支持度:使用递减支持度,可以解决使用一致支持度时在最小支持度值上设定的困难。递减支持度:在较低层使用递减的最小支持度,每一层都有自己一个独立的最小支持度,抽象层越低,对应的最小支持度越小。

多层关联的搜索策略:具有递减支持度的多层关联规则的搜索策略。逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。层交叉单项过滤:一个第i层的项被考察,当且仅当它在第i-1层的父节点是频繁的;层交叉k项集过滤:一个第i层的k项集被考察,当且仅当它在第i-1层的对应父节点k-项集是频繁的。

多层关联的搜索策略比较:逐层独立策略条件松,可能导致底层考察大量非频繁项;层交叉k项集过滤策略限制太强,仅允许考察频繁k-项集的子女;层交叉单项过滤策略是上述两者的折中,但仍可能丢失低层频繁项。(www.chuimin.cn)

受控的层交叉单项过滤策略:层交叉单项过滤策略的改进版本。设置一个层传递临界值,用于向较低层传递相对频繁的项,即如果满足层传递临界值,则允许考察不满足最小支持度临界值的项的子女。用户对进一步控制多概念层上的挖掘过程有了更多的灵活性,同时减少无意义关联的考察和产生。

检查冗余的多层关联规则:挖掘多层关联规则时,由于项间的“祖先”关系,有些发现的规则将是冗余的。第一个规则是第二个规则的“祖先”,如果规则(2)中的项用它在概念分层中的“祖先”代替,能得到(1),而且(1)的支持度和置信度都接近“期望”值,则(1)是冗余的。

3.多维关联规则

多维关联规则:涉及两个或多个维或谓词的关联规则;维间关联规则:不包含重复的谓词;混合维关联规则:包含某些谓词的多次出现。在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集。k-谓词集是包含k个合取谓词的集合。

挖掘多维关联规则的技术。数据属性可以分为分类属性和量化属性:分类属性,具有有限个不同值,值之间无序;量化属性,数值类型的值,并且值之间有一个隐含的序。挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法:量化属性的静态离散化,使用预定义的概念分层对量化属性进行静态的离散化;量化关联规则,根据数据的分布,将量化属性离散化到“箱”;基于距离的关联规则,考虑数据点之间的距离,动态地离散化、量化属性。

使用量化属性的静态离散化。量化属性使用预定义的概念分层,在挖掘前进行离散化,数值属性的值用区间代替。如果任务相关数据存在于关系数据库中,则找出所有频繁的k-谓词集将需要k或k+1次表扫描。数据立方体技术非常适合挖掘多维关联规则。n-维方体的单元用于存放对应n-谓词集的计数或支持度,0-D方体用于存放任务相关数据的事务总数。如果包含感兴趣的维的数据立方体已经存在并物化,挖掘将会很快,同时可以利用Apriori性质:频繁谓词集的每个子集也必须是频繁的。

4.由关联分析到相关分析

我们需要一种度量事件间的相关性或者是依赖性的指标。

当项集A的出现独立于项集B的出现时,P(A∪B)=P(A)P(B),即corrA,B=1,表明A与B无关,corrA,B>1表明A与B正相关,corrA,B<1表明A与B负相关