关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
1.关联规则处理的变量
关联规则处理的变量可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理。当然数值型关联规则中也可以包含种类变量。
关联规则中的数据,可以分为单维的和多维的。在单维的关联规则中,只涉及数据的一个维,如用户购买的物品。换句话说,单维关联规则是处理单个属性中的一些关系,例如啤酒=>尿布,这条规则只涉及用户购买的物品;在多维的关联规则中,要处理的数据将会涉及多个维。多维关联规则是处理各个属性之间的某些关系。
关联规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;在多层的关联规则中,对数据的多层性已经进行了充分的考虑。项通常具有层次,底层的项通常支持度也低,某些特定层的规则可能更有意义。交易数据库可以按照维或层编码,可以进行共享的多维挖掘。
2.多层关联规则
在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的。通常,事务数据库中的数据也是根据维和概念分层来进行储存的,这为从事务数据库中挖掘不同层次的关联规则提供了可能。在多个抽象层挖掘关联规则,并在不同的抽象层进行转化,是数据挖掘系统应该具有的能力。挖掘多层关联规则的方法:通常,多层关联规则的挖掘还是使用置信度—支持度框架,可以采用自上向下策略;(请注意:概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度)由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计算累加计数;每一层的关联规则挖掘可以使用Apriori等多种方法。
多层关联的一致支持度:对所有层都使用一致的最小支持度。优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。缺点:最小支持度值设置困难。太高,将丢掉出现在较低抽象层中有意义的关联规则;太低,会在较高层产生太多无兴趣的规则。
多层关联的递减支持度:使用递减支持度,可以解决使用一致支持度时在最小支持度值上设定的困难。递减支持度:在较低层使用递减的最小支持度,每一层都有自己一个独立的最小支持度,抽象层越低,对应的最小支持度越小。
多层关联的搜索策略:具有递减支持度的多层关联规则的搜索策略。逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。层交叉单项过滤:一个第i层的项被考察,当且仅当它在第i-1层的父节点是频繁的;层交叉k项集过滤:一个第i层的k项集被考察,当且仅当它在第i-1层的对应父节点k-项集是频繁的。
多层关联的搜索策略比较:逐层独立策略条件松,可能导致底层考察大量非频繁项;层交叉k项集过滤策略限制太强,仅允许考察频繁k-项集的子女;层交叉单项过滤策略是上述两者的折中,但仍可能丢失低层频繁项。(www.chuimin.cn)
受控的层交叉单项过滤策略:层交叉单项过滤策略的改进版本。设置一个层传递临界值,用于向较低层传递相对频繁的项,即如果满足层传递临界值,则允许考察不满足最小支持度临界值的项的子女。用户对进一步控制多概念层上的挖掘过程有了更多的灵活性,同时减少无意义关联的考察和产生。
检查冗余的多层关联规则:挖掘多层关联规则时,由于项间的“祖先”关系,有些发现的规则将是冗余的。第一个规则是第二个规则的“祖先”,如果规则(2)中的项用它在概念分层中的“祖先”代替,能得到(1),而且(1)的支持度和置信度都接近“期望”值,则(1)是冗余的。
3.多维关联规则
多维关联规则:涉及两个或多个维或谓词的关联规则;维间关联规则:不包含重复的谓词;混合维关联规则:包含某些谓词的多次出现。在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集。k-谓词集是包含k个合取谓词的集合。
挖掘多维关联规则的技术。数据属性可以分为分类属性和量化属性:分类属性,具有有限个不同值,值之间无序;量化属性,数值类型的值,并且值之间有一个隐含的序。挖掘多维关联规则的技术可以根据量化属性的处理分为三种基本方法:量化属性的静态离散化,使用预定义的概念分层对量化属性进行静态的离散化;量化关联规则,根据数据的分布,将量化属性离散化到“箱”;基于距离的关联规则,考虑数据点之间的距离,动态地离散化、量化属性。
使用量化属性的静态离散化。量化属性使用预定义的概念分层,在挖掘前进行离散化,数值属性的值用区间代替。如果任务相关数据存在于关系数据库中,则找出所有频繁的k-谓词集将需要k或k+1次表扫描。数据立方体技术非常适合挖掘多维关联规则。n-维方体的单元用于存放对应n-谓词集的计数或支持度,0-D方体用于存放任务相关数据的事务总数。如果包含感兴趣的维的数据立方体已经存在并物化,挖掘将会很快,同时可以利用Apriori性质:频繁谓词集的每个子集也必须是频繁的。
4.由关联分析到相关分析
我们需要一种度量事件间的相关性或者是依赖性的指标。
当项集A的出现独立于项集B的出现时,P(A∪B)=P(A)P(B),即corrA,B=1,表明A与B无关,corrA,B>1表明A与B正相关,corrA,B<1表明A与B负相关。
有关大数据挖掘技术及其在医药领域的应用的文章
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
通过方剂数据的预处理和关联分析,挖掘出基层知名老中医马祥治疗慢性胃炎处方的药对、药组和药四对。现有寒症诊断决策原始数据集,可利用关联规则分析哪些临床表现的组合会导致不同的诊断结果。例如,现有如下中医药治疗胰腺癌的处方数据,可进行关联规则分析用药规律。表2-6癫痫用药根据眼科诊疗数据,可挖掘H52.0远视、H52.2散光、H52.4老光之间的关联情况。......
2023-11-08
分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。分类分析的用途:解释和预报。......
2023-11-08
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
Weka工具的关联规则挖掘过程如图2-3所示。图2-4Weka选择函数设置Apriori算法的参数如下:car如果设为真,则会挖掘类关联规则而不是全局关联规则。delta以此数值为迭代递减单位,不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。设置对规则进行排序的度量依据,可以是置信度、提升度、杠杆率、确信度。在Weka中设置了几个类似置信度的度量来衡量规则的关联程度,它们分别是,①Lift:P(A,B)/Lift=1时表示A和B独立。......
2023-11-08
Apriori算法[3]是单维、单层、布尔关联规则挖掘算法,是最简单形式的关联规则挖掘。该算法是挖掘产生布尔关联规则频繁项目集的经典算法,对关联规则挖掘研究有着重要影响。图2.3Apriori-gen算法Apriori算法调用Apriori-gen,生成所有频繁项集,如图2.4所示。Apriori算法假定数据库驻留在内存中。Apriori算法之后,学者们不断研究其改进算法及其他思想的关联规则挖掘算法,取得了很多成果。图2.4Apriori算法图2.5找出频繁项集L后生成关联规则算法......
2023-06-16
医疗数据类型的多样化,包括数值型数据、类别型数据、图像、文字、信号、语音、视频。高科技的医学检查设备每天都会产生数千兆字节数据。数学特征不显著。数据归属权问题、数据安全问题、法律诉讼问题等。图1-6医疗数据可及性医学数据类型及特点主要包括多系统多类型、数据量大、增量迅速、结构复杂。绝大多数的医疗数据是处于归档状态,检索是十分复杂的。缺乏数据标准,导致无法统一。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
相关推荐