关联规则计算方法详解

2023-06-15 历史故事版权反馈

【摘要】：，xm}是一组称为项的元素的集合，集合XI称为项集。关联规则是一个表达式X→Y，其中X和Y是项集且不相交，即X，YI，其中N∩Y＝。为了生成频繁且高置信度的关联规则，首先要枚举所有的频繁项及其支持度。给定数据集D和用户自定义的支持度阈值minsup；其次，给定频繁项集的集合F和最小置信度minconf，关联规则挖掘的任务是找出所有频繁且置信度高的规则。

令I＝{x1，x2，…，xm}是一组称为项(item)的元素的集合，集合X⊆I称为项集。令T＝{t1，t2，…，tm}为另一个由事务标识符(tid)构成的集合，集合T⊆I称为一个事务标识符集。

数据集D的一个项集支持度(support)，表示为sup(X，D)，即D中包含X事务的数量:

X的相对支持度是包含X的事务的比例(黄庆炬等，2007):

它是对包含X项的联合概率的一个估计。若sup(X，D)≥minsup，则称X在D中是频繁的，其中minsup是用户定义的最小支持度阈值。使用集合F表示所有频繁项集的集合，F(k)表示频繁k－项集的集合。

关联规则是一个表达式X→Y，其中X和Y是项集且不相交，即X，Y⊆I，其中N∩Y＝∅(吴喜之，2012)。此处用XY表示项集X∪Y。规则的支持度(support)是X和Y同时出现事务的总数，计算公式为:

一条规则的置信度(confidence)是一个事务包含X的情况下也包含Y的条件概率(吴喜之，2012):

如果一条规则对应项集的sup(XY)≥minsup，则称该规则是频繁的。若conf(X→Y)≥minconf，则称该规则是强的，其中minconf是用户定义的最小置信度阈值。

为了生成频繁且高置信度的关联规则，首先要枚举所有的频繁项及其支持度。给定数据集D和用户自定义的支持度阈值minsup；其次，给定频繁项集的集合F和最小置信度minconf，关联规则挖掘的任务是找出所有频繁且置信度高的规则。

关联规则计算方法详解

相关推荐