首页理论教育基于Weka的关联规则挖掘方法

基于Weka的关联规则挖掘方法

2023-11-08 理论教育版权反馈

【摘要】：Weka工具的关联规则挖掘过程如图2-3所示。图2-4Weka选择函数设置Apriori算法的参数如下：car如果设为真，则会挖掘类关联规则而不是全局关联规则。delta以此数值为迭代递减单位，不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。设置对规则进行排序的度量依据，可以是置信度、提升度、杠杆率、确信度。在Weka中设置了几个类似置信度的度量来衡量规则的关联程度，它们分别是，①Lift：P（A，B）/Lift=1时表示A和B独立。

Weka工具的关联规则挖掘过程如图2-3所示。

pagenumber_ebook=77,pagenumber_book=66

图2-3　Weka界面

Weka选择需要的函数，如图2-4所示。

pagenumber_ebook=78,pagenumber_book=67

图2-4　Weka选择函数

设置Apriori算法的参数如下：

（1）car如果设为真，则会挖掘类关联规则而不是全局关联规则。

（2）classindex类属性索引。如果设置为-1，则最后的属性被当作类属性。

（3）delta以此数值为迭代递减单位，不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。

（4）lowerBoundMinSupport最小支持度下界。

（5）metricType度量类型。设置对规则进行排序的度量依据，可以是置信度（类关联规则只能用置信度挖掘）、提升度（lift）、杠杆率（leverage）、确信度（conviction）。在Weka中设置了几个类似置信度（confidence）的度量来衡量规则的关联程度，它们分别是，

①Lift：P（A，B）/（P（A）P（B））Lift=1时表示A和B独立。这个数越大（＞1），越表明A和B存在于一个购物篮中不是偶然现象，有较强的关联度。

②Leverage：P（A，B）-P（A）P（B）(www.chuimin.cn)

Leverage=0时，A和B独立，Leverage越大，A和B的关系越密切。

③Conviction：P（A）P（！B）/P（A，！B）（！B表示B没有发生）Conviction也是用来衡量A和B的独立性。从它和lift的关系（对B取反，代入Lift公式后求倒数）可以看出，这个值越大，A、B越关联。

（6）minMtric度量的最小值。

（7）numRules要发现的规则数。

（8）outputItemSets如果设置为真，会在结果中输出项集。

（9）removeAllMissingCols移除全部为缺省值的列。

（10）significanceLevel重要程度。重要性测试（仅用于置信度）。

（11）upperBoundMinSupport最小支持度上界。从这个值开始迭代减小最小支持度。

（12）verbose如果设置为真，则算法会以冗余模式运行。

设置Apriori算法的参数如图2-5所示，输出结果如图2-6所示。

pagenumber_ebook=79,pagenumber_book=68

图2-5　设置Apriori算法的参数