关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
Weka工具的关联规则挖掘过程如图2-3所示。
图2-3 Weka界面
Weka选择需要的函数,如图2-4所示。
图2-4 Weka选择函数
设置Apriori算法的参数如下:
(1)car如果设为真,则会挖掘类关联规则而不是全局关联规则。
(2)classindex类属性索引。如果设置为-1,则最后的属性被当作类属性。
(3)delta以此数值为迭代递减单位,不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。
(4)lowerBoundMinSupport最小支持度下界。
(5)metricType度量类型。设置对规则进行排序的度量依据,可以是置信度(类关联规则只能用置信度挖掘)、提升度(lift)、杠杆率(leverage)、确信度(conviction)。在Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度,它们分别是,
①Lift:P(A,B)/(P(A)P(B))Lift=1时表示A和B独立。这个数越大(>1),越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度。
②Leverage:P(A,B)-P(A)P(B)(www.chuimin.cn)
Leverage=0时,A和B独立,Leverage越大,A和B的关系越密切。
③Conviction:P(A)P(!B)/P(A,!B)(!B表示B没有发生)Conviction也是用来衡量A和B的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大,A、B越关联。
(6)minMtric度量的最小值。
(7)numRules要发现的规则数。
(8)outputItemSets如果设置为真,会在结果中输出项集。
(9)removeAllMissingCols移除全部为缺省值的列。
(10)significanceLevel重要程度。重要性测试(仅用于置信度)。
(11)upperBoundMinSupport最小支持度上界。从这个值开始迭代减小最小支持度。
(12)verbose如果设置为真,则算法会以冗余模式运行。
设置Apriori算法的参数如图2-5所示,输出结果如图2-6所示。
图2-5 设置Apriori算法的参数
有关大数据挖掘技术及其在医药领域的应用的文章
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。在单维的关联规则中,只涉及数据的一个维,如用户购买的物品。检查冗余的多层关联规则:挖掘多层关联规则时,由于项间的“祖先”关系,有些发现的规则将是冗余的。挖掘多维关联规则的技术。......
2023-11-08
Apriori算法[3]是单维、单层、布尔关联规则挖掘算法,是最简单形式的关联规则挖掘。该算法是挖掘产生布尔关联规则频繁项目集的经典算法,对关联规则挖掘研究有着重要影响。图2.3Apriori-gen算法Apriori算法调用Apriori-gen,生成所有频繁项集,如图2.4所示。Apriori算法假定数据库驻留在内存中。Apriori算法之后,学者们不断研究其改进算法及其他思想的关联规则挖掘算法,取得了很多成果。图2.4Apriori算法图2.5找出频繁项集L后生成关联规则算法......
2023-06-16
设数据集D被分割成分块D1,D2,...,Dn,全局最小支持数为minsup_count。因此,探索新的理论和算法来减少数据库的扫描次数和候选集空间占用,已经成为近年来关联规则挖掘研究的热点之一,典型的方法是FP-tree算法。......
2023-11-08
关联规则挖掘及算法郑继刚杨春华曾庆红赵若男摘要:关联规则可分为布尔型和数值型、单层和多层、单维和多维关联规则挖掘。本文阐述关联规则的定义以及分类,详细介绍经典的关联规则挖掘Apriori算法。可信度是对关联规则准确性的衡量,是得出关联规则的依据。......
2024-03-27
,xm}是一组称为项的元素的集合,集合XI称为项集。关联规则是一个表达式X→Y,其中X和Y是项集且不相交,即X,YI,其中N∩Y=。为了生成频繁且高置信度的关联规则,首先要枚举所有的频繁项及其支持度。给定数据集D和用户自定义的支持度阈值minsup;其次,给定频繁项集的集合F和最小置信度minconf,关联规则挖掘的任务是找出所有频繁且置信度高的规则。......
2023-06-15
仔细研究各算法就会发现,决策树分类算法、关联规则分类算法、贝叶斯分类算法都是基于规则“A→C”和其统计特性的。C 4.5是决策树分类算法的代表[98]。构造决策树时,总选择增益比例大的属性作为下一分支节点。简化后的规则按类进行分组,形成最终的分类规则集。可见,贝叶斯分类器也是基于规则“A→C”的统计特性的。决策树分类法是一种直观且精度较高的方法,但决策树有时也会变得很复杂,以至于难以解释。......
2023-06-16
4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2023-06-16
相关推荐