首页 理论教育基于Weka的关联规则挖掘方法

基于Weka的关联规则挖掘方法

【摘要】:Weka工具的关联规则挖掘过程如图2-3所示。图2-4Weka选择函数设置Apriori算法的参数如下:car如果设为真,则会挖掘类关联规则而不是全局关联规则。delta以此数值为迭代递减单位,不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。设置对规则进行排序的度量依据,可以是置信度、提升度、杠杆率、确信度。在Weka中设置了几个类似置信度的度量来衡量规则的关联程度,它们分别是,①Lift:P(A,B)/Lift=1时表示A和B独立。

Weka工具的关联规则挖掘过程如图2-3所示。

图2-3 Weka界面

Weka选择需要的函数,如图2-4所示。

图2-4 Weka选择函数

设置Apriori算法的参数如下:

(1)car如果设为真,则会挖掘类关联规则而不是全局关联规则。

(2)classindex类属性索引。如果设置为-1,则最后的属性被当作类属性。

(3)delta以此数值为迭代递减单位,不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。

(4)lowerBoundMinSupport最小支持度下界

(5)metricType度量类型。设置对规则进行排序的度量依据,可以是置信度(类关联规则只能用置信度挖掘)、提升度(lift)、杠杆率(leverage)、确信度(conviction)。在Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度,它们分别是,

①Lift:P(A,B)/(P(A)P(B))Lift=1时表示A和B独立。这个数越大(>1),越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度。

②Leverage:P(A,B)-P(A)P(B)(www.chuimin.cn)

Leverage=0时,A和B独立,Leverage越大,A和B的关系越密切。

③Conviction:P(A)P(!B)/P(A,!B)(!B表示B没有发生)Conviction也是用来衡量A和B的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大,A、B越关联。

(6)minMtric度量的最小值。

(7)numRules要发现的规则数。

(8)outputItemSets如果设置为真,会在结果中输出项集。

(9)removeAllMissingCols移除全部为缺省值的列。

(10)significanceLevel重要程度。重要性测试(仅用于置信度)。

(11)upperBoundMinSupport最小支持度上界。从这个值开始迭代减小最小支持度。

(12)verbose如果设置为真,则算法会以冗余模式运行。

设置Apriori算法的参数如图2-5所示,输出结果如图2-6所示。

图2-5 设置Apriori算法的参数