KMeans可能由于初始值选择的不同,导致最终的结果不同。图4-4KMeans算法迭代过程假设对于相同的样本数据,若随机选择的两个初始点为序号4和7。对于同一个数据集,由于KMeans算法对初始选取的聚类中心敏感,因此可用该准则评价聚类结果的优劣。通常,对于任意一个数据集,KMeans算法无法达到全局最优,只能达到局部最优。......
2023-11-08
1.频繁项目集生成
关联规则挖掘算法有很多,比如Apriori、Apriori改进算法、Close算法等。同样的关联规则定义(同样的事务数据集、最小支持度、最小置信度)下,它们输出的结果是一样的。我们仅学习关联规则挖掘的经典算法:Apriori。
Apriori算法步骤:(1)生成所有频繁项目集,支持度高于minsup的项集为频繁项目集(Frequent Itemset)。(2)从频繁项目集中生成所有可信关联规则,置信度大于minconf的规则为可信关联规则(Confident Association Rule)。
生成所有频繁项目集:一个项集的项目个数为该项集的基数,称一个基数为k的项集为k-项集。如果项目集X是频繁项目集,则它的所有非空子集都是频繁项目集(向下封闭属性);如果项目集X是非频繁项目集,则它的所有非空子集都是非频繁项目集。
生成所有频繁项目集算法思路。基本思想:逐级搜索(Level-wise Search),先找出长度为1的频繁项目集,接着找出长度为2的频繁项目集,以此类推。
F1⇒C2⇒F2⇒C3⇒F3⇒C4⇒F4⇒......
生成的每一个k项目集是由k-1频繁项目集生成的。
2.查找频繁项目集
(1)scan T。
C1:{菊花}:2,{柴胡}:3,{黄芩}:3,{茯苓}:1,{清半夏}:3
F1:{菊花}:2,{柴胡}:3,{黄芩}:3,{清半夏}:3
C2:{菊花,柴胡},{菊花,黄芩},{菊花,清半夏},{柴胡,黄芩},{柴胡,清半夏},{黄芩,清半夏}
(2)scan T。
C2:{菊花,柴胡}:1,{菊花,黄芩}:2,{菊花,清半夏}:1,{柴胡,黄芩}:2,{柴胡,清半夏}:3,{黄芩,清半夏}:2
F2:{菊花,黄芩}:2,{柴胡,黄芩}:2,{柴胡,清半夏}:3,{黄芩,清半夏}:2
C3:{柴胡,黄芩,清半夏}
(3)scan T。
C3:{柴胡,黄芩,清半夏}:2
F3:{柴胡,黄芩,清半夏}:2
3.Apriori算法流程
4.候选项集生成算法(www.chuimin.cn)
候选项集生成算法根据长度为k-1的频繁项目集Fk-1,经过两个步骤生成长度为k的候选项集Ck。
合并:根据生成所有可能的长度为k的Ck。合并方法:两个k-1频繁项目集的前k-2个项目都是相同的,只有最后一个项目不同,就将生成的k-项集加入Ck中。
剪枝:合并后的Ck并不是最终的候选项集,需要判断每个项集的所有k-1子集是否在Fk-1中,不在则删除(向下封闭原理)。
5.关联规则生成
一旦由数据库D中的事务找出频繁项集,由它们产生强关联规则是直截了当的(强关联规则满足最小支持度和最小置信度)。对于置信度可以用下式,其中条件概率用项集支持度计数表示。
其中,support_count(A∪B)是包含A∪B的事务数,support_count(A)是包含项集A的事务数。
关联规则产生如下:
对于每个频繁项集I,产生I的所有非空子集;
对于I的每个非空子集s,如果
则输出规则“S=>(I-s)”,其中min_conf是最小置信度阈值。
频繁项目集不等于关联规则,根据频繁项目集生成关联规则。每一个频繁项目集生成关联规则都需要用到其非空子集。设A是频繁项目集X的非空子集,则有:
设B=X-A
A→B是一条关联规则,如果满足:
confidence(A→B)≥minconf,
support(A→B)=support(A∪B)=support(X)
confidence(A→B)=support(A∪B)/support(A)
因此,给定一个频繁项目集X,如果有一条关联规则的后件为B,那么所有以B的任一非空子集为后件的候选规则都是关联规则。
强关联规则的产生:第一个子问题的求解,需要多次扫描数据库D,这意味着关联规则挖掘算法的效率将主要取决于数据库扫描、I/O操作和频繁项目集的计算。因此,如何迅速、高效地找出所有的频繁项目集是关联规则挖掘的中心问题。第二个子问题的求解比较容易,R.Agrawal等人已提出了有效的解决办法,具体过程如下:对每个频繁项目集I,产生所有的非空真子集,对I的任意非空真子集m,若support(I)/Support(m)≥minconfidence,则产生强关联规则m->(1-m)。
生成关联规则总结。为了找出规则A→B,必须保存sup(A∪B)和sup(A)。支持度的计算可以根据上一步频繁项目集中的结果得到,而不必再次扫描数据集T。关联规则生成步骤比频繁项目集生成步骤所花费的时间要少。注意:如果(f-a)→a是一条关联规则,那么所有(f-asub)→asub必然是关联规则。如果规则“Y→X”是强规则,那么“Y→X1”一定是强规则(其中,X1是X的一个子集)。
有关大数据挖掘技术及其在医药领域的应用的文章
KMeans可能由于初始值选择的不同,导致最终的结果不同。图4-4KMeans算法迭代过程假设对于相同的样本数据,若随机选择的两个初始点为序号4和7。对于同一个数据集,由于KMeans算法对初始选取的聚类中心敏感,因此可用该准则评价聚类结果的优劣。通常,对于任意一个数据集,KMeans算法无法达到全局最优,只能达到局部最优。......
2023-11-08
决策树可以用来对未知样本进行分类。决策树分类算法使用场景,这个监督式学习算法通常被用于分类问题,它同时适用于分类变量和连续因变量。信息增益是决策树常用的分枝准则,在树的每个结点上选择具有最高信息增益的属性作为当前结点的划分属性。......
2023-11-08
随机森林是通过将很多的决策树组合而成的,随机森林采用CART算法。另外,针对CART的分类树和回归树,它们的计算方法有所不同,数值型和分类型属性变量的计算方法也存在差异。CART算法使用Gini系数来度量对某个属性变量测试输出的两组取值的差异性。表3-8C4.5算法和CART算法比较......
2023-11-08
在C4.5算法中采用概率的方法,为缺失值的每个可能值赋予一个概率,而不是简单地用最常见的值替代该缺失值。C4.5决策树的生长阶段算法伪代码:C4.5决策树的剪枝处理阶段算法伪代码:5.C4.5算法的优缺点与其他分类算法相比,C4.5分类算法具有如下优点:产生的分类规则易于理解,准确率较高。为适应大规模数据集,在C4.5后出现有SLIQ和SPRINT等算法。......
2023-11-08
聚类分析的算法可以分为划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等,其中,前两种方法最常用。图4-6层次聚类法示例4.基于网格的方法基于网格的聚类方法采用一个网格数据结构,把对象空间量化为有限数目的单元,形成了一个网格结构。......
2023-11-08
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
相关推荐