布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。在单维的关联规则中,只涉及数据的一个维,如用户购买的物品。检查冗余的多层关联规则:挖掘多层关联规则时,由于项间的“祖先”关系,有些发现的规则将是冗余的。挖掘多维关联规则的技术。......
2023-11-08
若两个或多个变量的取值之间存在某种规律性,就称为关联。关联规则是寻找在同一个事件中出现的不同项的相关性。比如,在一次购买活动中所买不同商品的相关性。关联分析即利用关联规则进行数据挖掘。
关联规则挖掘问题的描述:
项目集,设I={i1,i2,…,im}是一个项目(Item)集合。比如,I={菊花、柴胡、黄芩、茯苓、清半夏}。
事务数据库(事务Transaction集合),设事务数据库T={t1,t2,…,tn}。该数据库是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上一个子集。
关联规则的描述,X==>Y,其中X∈I,Y∈I且X∩Y=∅;X(或Y)是一个项目的集合,称作项集(Itemset),并称X为前件,Y为后件。比如,一条关联规则:{柴胡,黄芩}→清半夏,其中,{柴胡,黄芩}是X,{清半夏}是Y。
支持度,如果项集X是事务ti∈T的一个子集,则称ti包含X(也称X覆盖ti)。X在T中的支持计数(Support Count,表示为X.count)是T中包含X的事务的数目。规则X∪Y的支持度是指“T中包含X∪Y的事务的百分比”。
n为T中事务的数目。支持度表示规则在事务集合T中使用的频繁程度。
置信度,规则X∪Y的置信度是指既包含了X又包含了Y的事务的数量占所有包含了X的事务的百分比。
置信度决定了规则的可预测度。
关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度(Minsup)和最小置信度(Minconf)的关联规则。
现有中医药治疗胰腺癌的处方数据,每一行是一个处方记录,包含若干味中药,完整的数据集如表2-5所示。简化后,中医药治疗胰腺癌的处方数据有四个处方、五味中药:菊花、柴胡、黄芩、茯苓、清半夏,数据如表2-8所示。
表2-8 简化后中医药治疗胰腺癌的处方数据
扫描源数据库Data,可得候选项集C1如下:
表2-9 候选项集C1
根据最小支持数2,可得频繁项目集(Frequent Itemset)F1项集如下:
表2-10 频繁项目集F1项集
由F1项集构造候选项集C2如下:
表2-11 由F1项集构造候选项集C2(www.chuimin.cn)
扫描源数据库Data,可得候选项集C2中各记录的支持数如下:
表2-12 候选项集C2
根据最小支持数2,可得F2项集如下:
表2-13 频繁项目集F2项集
由F2项集构造候选项集C3如下:
表2-14 由F2项集构造候选项集C3
因此,最终的候选项集C3如下:
表2-15 候选项集C3
扫描源数据库Data,可得候选项集C3中各记录的支持数如下:
表2-16 候选项集C3
根据最小支持数2,可得F3项集如下:
表2-17 频繁项目集F3项集
表2-18 关联规则
有关大数据挖掘技术及其在医药领域的应用的文章
布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。在单维的关联规则中,只涉及数据的一个维,如用户购买的物品。检查冗余的多层关联规则:挖掘多层关联规则时,由于项间的“祖先”关系,有些发现的规则将是冗余的。挖掘多维关联规则的技术。......
2023-11-08
医疗数据类型的多样化,包括数值型数据、类别型数据、图像、文字、信号、语音、视频。高科技的医学检查设备每天都会产生数千兆字节数据。数学特征不显著。数据归属权问题、数据安全问题、法律诉讼问题等。图1-6医疗数据可及性医学数据类型及特点主要包括多系统多类型、数据量大、增量迅速、结构复杂。绝大多数的医疗数据是处于归档状态,检索是十分复杂的。缺乏数据标准,导致无法统一。......
2023-11-08
打开VMware Workstation→点击文件→新建虚拟机。图9-2选择典型(推荐)选择“安装程序光盘映像文件”,选择指定的CentOS系统的.iso文件,点击“下一步〉”。图9-10在CentOS 6中安装VMware Tools重启CentOs 6。图9-11CentOS 6重启输入密码zkpk,登录进系统。图9-12CentOS 6安装完成下面克隆HadoopSlave。图9-14设置克隆虚拟机选项创建完整克隆。图9-16命名虚拟机图9-17正在准备克隆虚拟机图9-18正在克隆虚拟机点击“关闭”按钮后,发现“HadoopSlave”虚拟机已经在左侧的列表栏中。......
2023-11-08
分类是一种基本的数据分析方式,根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质。分类分析的用途:解释和预报。......
2023-11-08
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2023-11-08
在HBase Shell提示符下执行help命令可列出所有命令列表。命名空间类命令命名空间是对表的逻辑分组,HBase可以针对命名空间分配资源限额,指定HRegionServer子集,进行安全管理等。大多数配置更改后必须重新启动HBase集群才能生效,与HRegion压缩、拆分相关的参数可以动态更改,更改后在HBase Shell中执行update_all_config命令即可生效。......
2023-11-08
MapReduce编程:编写WordCount类,实现Mapper接口,实现Reducer接口,配置作业,代码测试,打包发布。其中,key为该行在文本中的偏移量,value值为这一行的内容。Map处理将分割好的〈key,value〉对作为map()方法的输入,然后由用户定义的map()方法进行Map处理,生成新的〈key,value〉对。Reduce处理首先,Reduce端接收到来自Map端的数据后,对数据进行排序,如图5-27Reduce端排序结果所示。......
2023-11-08
药品安全事件与人们的身体健康密切相关,大众对此关注度高,容易产生消极的非理性情绪。有报告指出,近90%的药品安全舆情事件均未取得令人满意的结果。Hadoop技术的飞速发展,提高了对大量数据进行处理的效率。基于Hadoop的朴素贝叶斯分类。本书通过其构造基于Hadoop的药品安全舆情话题跟踪模型与算法,完成对药品安全舆情信息的跟踪。......
2023-11-08
相关推荐