布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。在单维的关联规则中,只涉及数据的一个维,如用户购买的物品。检查冗余的多层关联规则:挖掘多层关联规则时,由于项间的“祖先”关系,有些发现的规则将是冗余的。挖掘多维关联规则的技术。......
2025-09-30
1.Apriori算法的性能瓶颈
Apriori作为经典的频繁项目集生成算法,在数据挖掘中具有里程碑的作用。
Apriori算法有两个致命的性能瓶颈:第一,多次扫描事务数据库,需要很大的I/O负载,对每次k循环,侯选集Ck中的每个元素都必须通过扫描一次数据库来验证其是否加入Lk。假如有一个频繁项目集包含10个项的话,那么就至少需要扫描事务数据库10遍。第二,可能产生庞大的侯选集,由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有可能产生接近107个元素的2-侯选集。如此大的候选集对时间和主存空间都是一种挑战。
2.提高Apriori算法效率的技术(https://www.chuimin.cn)
一些算法虽然仍然遵循Apriori属性,但是由于引入了相关技术,在一定程度上改善了Apriori算法的适应性和效率。主要的改进方法:基于数据分割(Partition)的方法,基本原理是在一个划分中的支持度小于最小支持度的k-项集不可能是全局频繁的。基于散列(Hash)的方法,基本原理是,在一个hash桶内支持度小于最小支持度的k-项集不可能是全局频繁的。基于采样(Sampling)的方法,基本原理是通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度。其他,如动态删除没有用的事务:不包含任何Lk的事务对未来的扫描结果不会产生影响,因而可以删除。
基于数据分割的方法。设数据集D被分割成分块D1,D2,...,Dn,全局最小支持数为minsup_count。如果一个数据分块Di的局部最小支持数minsup_counti(i=1,2,…,n),按着如下方法生成:minsup_counti=minsup_count||Di||/||D||,则所有的局部频繁项目集涵盖全局频繁项目集。作用:(1)合理利用主存空间。数据分割将大数据集分成小的块,为块内数据一次性导入主存提供机会。(2)支持并行挖掘算法。每个分块的局部频繁项目集是独立生成的,因此提供了开发并行数据挖掘算法的良好机制。
探索新的理论。随着数据库容量的增大,重复访问数据库(外存)将导致性能低下。因此,探索新的理论和算法来减少数据库的扫描次数和候选集空间占用,已经成为近年来关联规则挖掘研究的热点之一,典型的方法是FP-tree算法。
相关文章
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。在单维的关联规则中,只涉及数据的一个维,如用户购买的物品。检查冗余的多层关联规则:挖掘多层关联规则时,由于项间的“祖先”关系,有些发现的规则将是冗余的。挖掘多维关联规则的技术。......
2025-09-30
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2025-09-30
如果后件“C”只有类别值,自然可以想到使用此规则进行分类。典型的关联规则分类算法有CBA、CMAR和CPAR[99]。CBA是由Liu B等人提出的,是最早的也是最简单的关联规则分类算法[99]。在一些典型的分类数据集的测试中,CBA算法的实验精度高于C 4.5。但与CMAR不同的是,CPAR只选择每组中的“最好的”K个规则进行分类计算。可见,关联规则分类算法是一类基于规则的算法,其基础是频繁项目的与运算。......
2025-09-29
通过方剂数据的预处理和关联分析,挖掘出基层知名老中医马祥治疗慢性胃炎处方的药对、药组和药四对。现有寒症诊断决策原始数据集,可利用关联规则分析哪些临床表现的组合会导致不同的诊断结果。例如,现有如下中医药治疗胰腺癌的处方数据,可进行关联规则分析用药规律。表2-6癫痫用药根据眼科诊疗数据,可挖掘H52.0远视、H52.2散光、H52.4老光之间的关联情况。......
2025-09-30
对盗窃犯罪案件类别、时间段、网格编号等属性信息,选择合适的支持度和置信度阈值,进行关联规则挖掘。按照关联规则长度为3,提升度大于1.2的原则进行筛选,得到共计68条强关联规则。通过分析得到的强关联规则,推出犯罪类型、网格号与时间段这三个案件属性之间所存在的关联关系,进而推测盗窃犯罪的时空规律。......
2025-09-29
在所有可能的项集中,有很多候选都不是频繁的。算法4.2Apriori算法伪代码FPGrowth方法使用一种增强的前缀树对数据D进行索引,以实现快速的支持度计算。FPGrowth将所有的项按照支持度的降序排列。FP树构建完成后,所有的频繁项集就可以从树中挖掘出来。基于频繁树模式的频繁集搜索方法见算法4.3。算法4.3FPGrowth算法伪代码......
2025-09-29
数据清洗这是文本挖掘中关键的一步。因此文本内容无法用目前的数据挖掘技术直接进行处理,需要对文本进行预处理。通常文本型数据都具有相当大的维度空间,将导致在文本挖掘阶段消耗更多的计算机资源与处理时间。通过用户预定义的评估指标体系对文本挖掘所获取的知识进行评价,并根据评价结果抉择是否留用。文本挖掘的结果是面向各种应用的知识模式。通过评估可以改进文本挖掘的知识发现过程。......
2025-09-29
,xm}是一组称为项的元素的集合,集合XI称为项集。关联规则是一个表达式X→Y,其中X和Y是项集且不相交,即X,YI,其中N∩Y=。为了生成频繁且高置信度的关联规则,首先要枚举所有的频繁项及其支持度。给定数据集D和用户自定义的支持度阈值minsup;其次,给定频繁项集的集合F和最小置信度minconf,关联规则挖掘的任务是找出所有频繁且置信度高的规则。......
2025-09-29
相关推荐