关联规则挖掘及算法郑继刚杨春华曾庆红赵若男摘要:关联规则可分为布尔型和数值型、单层和多层、单维和多维关联规则挖掘。本文阐述关联规则的定义以及分类,详细介绍经典的关联规则挖掘Apriori算法。可信度是对关联规则准确性的衡量,是得出关联规则的依据。......
2024-03-27
Apriori算法[3]是单维、单层、布尔关联规则挖掘算法,是最简单形式的关联规则挖掘。该算法是挖掘产生布尔关联规则频繁项目集的经典算法,对关联规则挖掘研究有着重要影响。首先,关联规则的挖掘被分为两个步骤:
(1)找出满足minsup的所有频繁项集。
(2)从频繁项集生成关联规则。
步骤(1)中,算法利用一个逐层搜索的迭代方法来完成频繁项目集的挖掘。具体的做法如下:首先访问一次数据库,找出频繁1-项集,记为L1;利用L1×L1生成频繁2-项集候选集C2;访问一次数据库筛掉C2中的非频繁项集,形成频繁2-项集L2;利用L2×L2生成3-项集,根据[性质2.1]和[性质2.2]去掉3-项集中不可能频繁的项集实现剪枝,留下的作为C3;访问一次数据库筛掉C3中的非频繁项集,形成频繁3-项集L3;如此不断地循环下去直至Ck或Lk空为止。
Apriori算法中将由Lk×Lk生成k+1-项目集,并剪枝形成Ck+1的过程分离出来称Apriori-gen算法,如图2.3所示。
图2.3 Apriori-gen算法
Apriori算法调用Apriori-gen,生成所有频繁项集,如图2.4所示。
Apriori算法假定数据库驻留在内存中。数据库扫描的最大趟数等于最大的频繁项目集的基数加1。生成了频繁项集L后,关联规则的生成变得非常直接。其算法命名为ARGen,如图2.5所示。
许多情况下,Apriori算法的产生——剪枝方法大幅度地压缩了候选项集的大小,具有较好的性能。但在数据库规模巨大、项目稠密的情况下,频繁1-项集很大和最终产生的频繁模式很长,Apriori算法就需要大量的剪枝运算和多次扫描数据库,算法的效率会大大降低。Apriori算法之后,学者们不断研究其改进算法及其他思想的关联规则挖掘算法,取得了很多成果。
图2.4 Apriori算法
图2.5 找出频繁项集L后生成关联规则算法
有关数据挖掘算法及在视频分析中的应用的文章
关联规则挖掘及算法郑继刚杨春华曾庆红赵若男摘要:关联规则可分为布尔型和数值型、单层和多层、单维和多维关联规则挖掘。本文阐述关联规则的定义以及分类,详细介绍经典的关联规则挖掘Apriori算法。可信度是对关联规则准确性的衡量,是得出关联规则的依据。......
2024-03-27
设数据集D被分割成分块D1,D2,...,Dn,全局最小支持数为minsup_count。因此,探索新的理论和算法来减少数据库的扫描次数和候选集空间占用,已经成为近年来关联规则挖掘研究的热点之一,典型的方法是FP-tree算法。......
2023-11-08
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。在单维的关联规则中,只涉及数据的一个维,如用户购买的物品。检查冗余的多层关联规则:挖掘多层关联规则时,由于项间的“祖先”关系,有些发现的规则将是冗余的。挖掘多维关联规则的技术。......
2023-11-08
如果后件“C”只有类别值,自然可以想到使用此规则进行分类。典型的关联规则分类算法有CBA、CMAR和CPAR[99]。CBA是由Liu B等人提出的,是最早的也是最简单的关联规则分类算法[99]。在一些典型的分类数据集的测试中,CBA算法的实验精度高于C 4.5。但与CMAR不同的是,CPAR只选择每组中的“最好的”K个规则进行分类计算。可见,关联规则分类算法是一类基于规则的算法,其基础是频繁项目的与运算。......
2023-06-16
Weka工具的关联规则挖掘过程如图2-3所示。图2-4Weka选择函数设置Apriori算法的参数如下:car如果设为真,则会挖掘类关联规则而不是全局关联规则。delta以此数值为迭代递减单位,不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。设置对规则进行排序的度量依据,可以是置信度、提升度、杠杆率、确信度。在Weka中设置了几个类似置信度的度量来衡量规则的关联程度,它们分别是,①Lift:P(A,B)/Lift=1时表示A和B独立。......
2023-11-08
在所有可能的项集中,有很多候选都不是频繁的。算法4.2Apriori算法伪代码FPGrowth方法使用一种增强的前缀树对数据D进行索引,以实现快速的支持度计算。FPGrowth将所有的项按照支持度的降序排列。FP树构建完成后,所有的频繁项集就可以从树中挖掘出来。基于频繁树模式的频繁集搜索方法见算法4.3。算法4.3FPGrowth算法伪代码......
2023-06-15
从频繁项目集中生成所有可信关联规则,置信度大于minconf的规则为可信关联规则。C3:{柴胡,黄芩,清半夏}:2F3:{柴胡,黄芩,清半夏}:23.Apriori算法流程4.候选项集生成算法候选项集生成算法根据长度为k-1的频繁项目集Fk-1,经过两个步骤生成长度为k的候选项集Ck。......
2023-11-08
相关推荐