在所有可能的项集中,有很多候选都不是频繁的。算法4.2Apriori算法伪代码FPGrowth方法使用一种增强的前缀树对数据D进行索引,以实现快速的支持度计算。FPGrowth将所有的项按照支持度的降序排列。FP树构建完成后,所有的频繁项集就可以从树中挖掘出来。基于频繁树模式的频繁集搜索方法见算法4.3。算法4.3FPGrowth算法伪代码......
2023-06-15
设I={i1,i2,…,im}是m个不同项目的集合。D是所有事务的集合(即事务数据库),每个事务T是一些项目的集合,T包含在I中,即T⊂I,并且每个事务可以用唯一的标识符Tid来标识。通常D是二维表,一维表示项目,另一维表示每个Tid事务所具有的项目情况,它有4种表示形式:项目向量(Item-vector)、项目列表(Item-list)、Tid向量(Tid-vector)和Tid列表(Tid-list),示例如图2.2所示[3,26,27]。
图2.2 事务数据库的4种表示形式
(a)项目向量;(b)项目列表;(c)Tid向量;(d)Tid列表
【定义2.1】设X为I中某些项目的集合,简称为项集(Item-set)。如果X中含有K个项目,即|X|=K,则称X为K-项集。
【定义2.2】如果项目集X⊆T,则称事务T包含项集X,或称事务T支持项集X。D中包含X的T的个数称为D对X的支持数,简记为count(X)。D中包含X的T的比率称为D对X的支持度,记为support(X),一般用百分比表示。如果用|D|表示D中T的总数,显然有:
【定义2.3】关联规则是形如:X⇒Y的蕴涵式,这里X⊂I,Y⊂I,并且X∩Y=Φ。称X为前件(antecedent),Y为后件(consequent)。称support(X⇒Y)=support(X∪Y)为此关联规则的支持度。关联规则X⇒Y的置信度是包含X∪Y的事务数与包含X的事务数的比值,记为confidence(X⇒Y),所以有:
给定最小支持度阈值minsup和最小置信度阈值minconf,关联规则挖掘即在D中找出所有支持度≥minsup和置信度≥minconf的关联规则。
【定义2.4】若项集X的支持度不小于最小支持度,则称X为频繁项目集。若某一项目im满足最小支持度要求,则称im为频繁项目,所有频繁项目的集合称为频繁1-项集,记为L1;满足最小支持度要求的k-项集称为频繁k-项集,所有频繁k-项集的集合记为Lk。
给定最小支持度阈值minsup,频繁项集挖掘即在D中找出所有支持度≥minsup的频繁项集。频繁项集具有如下两个性质:
【性质2.1】如果X是频繁项目集,那么X的任何非空子集都是频繁项目集。
【性质2.2】如果X是非频繁项目集,那么X的任何超集都是非频繁项目集。
【定义2.5】若频繁项目集X的所有超集都是非频繁项目集,则称X为最大频繁项目集;所有最大频繁项目集组成的集合称为最大频繁集。
由上面的定义可知,最大频繁集已经隐含了所有频繁项目集。挖掘最大频繁集有效地减少了挖掘结果的数目,但是它不能反映其所有频繁项目子集的支持数信息。频繁闭项集(Frequent closed items)能减少挖掘结果的数目,同时保留了其项目子集的支持数信息,其定义如[定义2.6]。
【定义2.6】一个项目集X被称为是频繁闭项目集,如果X是频繁的,并且不存在任何X的真超集Y,使得support(X)=support(Y)。
自从在SIG MOD93会议[28]上第一次提出关联规则的概念以来,关联规则一直是众多学者研究的热点。其中,研究算法(包括挖掘频繁项集的算法)的文献可以有多种分类。可分为直接对源数据集进行挖掘的算法和借助数据结构来挖掘规则的算法[29,3041];可分为挖掘一般频繁项集的算法和挖掘最大、闭频繁项集的算法[38,3953];水平优先的算法和垂直优先的算法[54];还有分布并行关联规则的挖掘算法[56];挖掘带有约束条件的关联规则算法[40,55-70];关联规则增量更新挖掘算法[35]等。还有相当多的学者研究了关联规则挖掘与关系数据库紧密结合的问题[71,72-88],关联规则的结果评价标准问题[81],挖掘系统的构架、交互方式及可视化问题[83]等。但是,数据挖掘乃至关联规则挖掘技术还没有成熟,要达到实用推广还需要做长期艰苦的探索。
有关数据挖掘算法及在视频分析中的应用的文章
在所有可能的项集中,有很多候选都不是频繁的。算法4.2Apriori算法伪代码FPGrowth方法使用一种增强的前缀树对数据D进行索引,以实现快速的支持度计算。FPGrowth将所有的项按照支持度的降序排列。FP树构建完成后,所有的频繁项集就可以从树中挖掘出来。基于频繁树模式的频繁集搜索方法见算法4.3。算法4.3FPGrowth算法伪代码......
2023-06-15
在借助数据结构存放中间结果来挖掘关联规则的算法中,FP-growth算法[89]效率较高,其中使用的树结构FP-Tree成为很多研究的基础。通过递归调用FP-growth的方法来直接产生频繁项目集。为方便后面叙述,表2.1中在第3列列出了每个事务中按降序排列的频繁项。第二次扫描数据库并构建FP-Tree。图2.6[例2.1]生成的FP-TreeFP-Tree的构造算法如图2.7所示。FP-growth算法以FP-Tree头表的倒序为计算顺序,从下至上递归搜索FP-Tree,逐步生成所有的频繁项集。图2.7FP-Tree的构造算法图2.8FP-growth算法......
2023-06-16
可串行化是经典数据库事务并发控制的正确性判据。 抽象数据类型集合的前向交换关系兼容和后向交换关系兼容分别如表15.3和表15.4所示。下面从可交换性上来讨论面向对象数据库的事务管理问题。对象系统中,如果使用封锁技术,则封锁颗粒会有变化。这是因为没有把对象的语义考虑在内。ADT上的事务执行需要多级机制。......
2023-10-28
如果事务出错,终止后,账户返回到原先的有效状态。当以隐性事务模式操作时,SQL Server将在提交或回滚事务后自动启动新事务。......
2023-11-23
根据事务的设置、用途的不同,SQL Server 2012将事务分为多种类型。用户定义事务在实际应用中,大多数的事务处理采用了用户定义的事务来处理。ROLLBACK语句是取消语句,该语句将事务的操作全部取消,即表示事务操作失效。显式事务显式事务是指每个事务均以BEGⅠN TRANSACTⅠON语句显式开始,以COMMⅠT或ROLLBACK语句显式结束。......
2023-11-24
目前使用最广泛的西文字符集代码表是美国制定的ASCII码表,其全称是“美国信息交换标准代码”。从表中可以看出,一个字节的编码对应一个字符,最高位在计算机内部一般为“0”,故ASCII码是7位的编码,共可表示128个字符。于是人们借鉴ASCII码的设计思想,创造了使用8位二进制数表示字符的扩展字符集,这样就可以使用256种数字代号表示更多的字符。在扩展字符集中,从0到127的代码与ASCII码保持兼容,从128到255的代码用于表示其他的字符和符号。......
2023-10-22
在SQL Server 2012中,通过使用事务和锁机制,可以解决数据库的并发性问题。在SQL Server 2012中,事务要求处理时必须满足ACⅠD原则,即原子性、一致性、隔离性(Ⅰ)和持久性。图7—1事务的工作原理事务开始之后,事务所有的操作都陆续写到事务日志中。图7—2事务恢复和检查点......
2023-11-24
相关推荐