首页 历史故事关联规则计算方法详解

关联规则计算方法详解

【摘要】:,xm}是一组称为项的元素的集合,集合XI称为项集。关联规则是一个表达式X→Y,其中X和Y是项集且不相交,即X,YI,其中N∩Y=。为了生成频繁且高置信度的关联规则,首先要枚举所有的频繁项及其支持度。给定数据集D和用户自定义的支持度阈值minsup;其次,给定频繁项集的集合F和最小置信度minconf,关联规则挖掘的任务是找出所有频繁且置信度高的规则。

令I={x1,x2,…,xm}是一组称为项(item)的元素的集合,集合X⊆I称为项集。令T={t1,t2,…,tm}为另一个由事务标识符(tid)构成的集合,集合T⊆I称为一个事务标识符集。

数据集D的一个项集支持度(support),表示为sup(X,D),即D中包含X事务的数量:

X的相对支持度是包含X的事务的比例(黄庆炬等,2007):

它是对包含X项的联合概率的一个估计。若sup(X,D)≥minsup,则称X在D中是频繁的,其中minsup是用户定义的最小支持度阈值。使用集合F表示所有频繁项集的集合,F(k)表示频繁k-项集的集合。

关联规则是一个表达式X→Y,其中X和Y是项集且不相交,即X,Y⊆I,其中N∩Y=∅(吴喜之,2012)。此处用XY表示项集X∪Y。规则的支持度(support)是X和Y同时出现事务的总数,计算公式为:

一条规则的置信度(confidence)是一个事务包含X的情况下也包含Y的条件概率(吴喜之,2012):

如果一条规则对应项集的sup(XY)≥minsup,则称该规则是频繁的。若conf(X→Y)≥minconf,则称该规则是强的,其中minconf是用户定义的最小置信度阈值。

为了生成频繁且高置信度的关联规则,首先要枚举所有的频繁项及其支持度。给定数据集D和用户自定义的支持度阈值minsup;其次,给定频繁项集的集合F和最小置信度minconf,关联规则挖掘的任务是找出所有频繁且置信度高的规则。