机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行预测。数据挖掘与传统联机分析处理OLAP不同,对大数据的深度分析主要基于大规模的机器学习技术。图1-11数据挖掘与机器学习......
2025-09-30
若两个或多个变量的取值之间存在某种规律性,就称为关联。关联规则是寻找在同一个事件中出现的不同项的相关性。比如,在一次购买活动中所买不同商品的相关性。关联分析即利用关联规则进行数据挖掘。
关联规则挖掘问题的描述:
项目集,设I={i1,i2,…,im}是一个项目(Item)集合。比如,I={菊花、柴胡、黄芩、茯苓、清半夏}。
事务数据库(事务Transaction集合),设事务数据库T={t1,t2,…,tn}。该数据库是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,…,n)都对应I上一个子集。
关联规则的描述,X==>Y,其中X∈I,Y∈I且X∩Y=∅;X(或Y)是一个项目的集合,称作项集(Itemset),并称X为前件,Y为后件。比如,一条关联规则:{柴胡,黄芩}→清半夏,其中,{柴胡,黄芩}是X,{清半夏}是Y。
支持度,如果项集X是事务ti∈T的一个子集,则称ti包含X(也称X覆盖ti)。X在T中的支持计数(Support Count,表示为X.count)是T中包含X的事务的数目。规则X∪Y的支持度是指“T中包含X∪Y的事务的百分比”。
n为T中事务的数目。支持度表示规则在事务集合T中使用的频繁程度。
置信度,规则X∪Y的置信度是指既包含了X又包含了Y的事务的数量占所有包含了X的事务的百分比。
置信度决定了规则的可预测度。
关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度(Minsup)和最小置信度(Minconf)的关联规则。
现有中医药治疗胰腺癌的处方数据,每一行是一个处方记录,包含若干味中药,完整的数据集如表2-5所示。简化后,中医药治疗胰腺癌的处方数据有四个处方、五味中药:菊花、柴胡、黄芩、茯苓、清半夏,数据如表2-8所示。
表2-8 简化后中医药治疗胰腺癌的处方数据
扫描源数据库Data,可得候选项集C1如下:
表2-9 候选项集C1
根据最小支持数2,可得频繁项目集(Frequent Itemset)F1项集如下:
表2-10 频繁项目集F1项集
由F1项集构造候选项集C2如下:
表2-11 由F1项集构造候选项集C2(https://www.chuimin.cn)
扫描源数据库Data,可得候选项集C2中各记录的支持数如下:
表2-12 候选项集C2
根据最小支持数2,可得F2项集如下:
表2-13 频繁项目集F2项集
由F2项集构造候选项集C3如下:
表2-14 由F2项集构造候选项集C3
因此,最终的候选项集C3如下:
表2-15 候选项集C3
扫描源数据库Data,可得候选项集C3中各记录的支持数如下:
表2-16 候选项集C3
根据最小支持数2,可得F3项集如下:
表2-17 频繁项目集F3项集
表2-18 关联规则
相关文章
机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行预测。数据挖掘与传统联机分析处理OLAP不同,对大数据的深度分析主要基于大规模的机器学习技术。图1-11数据挖掘与机器学习......
2025-09-30
健康医疗大数据典型应用。可以构建大数据平台来收集不同病例和治疗方案以及病人的基本特征,建立针对疾病特点的数据库,帮助医生进行疾病诊断。医疗行业的大数据应用一直在进行,但是数据并没有完全打通,基本都是孤岛数据,没办法进行大规模的应用。健康医疗大数据在医疗行业治理方面的典型应用:卫生体制改革评估监测。大数据在疾病预测中的作用。大数据在临床业务、付款和定价、研发、大数据基因等方面的应用。......
2025-09-30
数据科学是一门以“数据”,尤其是“大数据”为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据预处理、数据管理、数据计算、数据产品开发等活动的交叉性学科。首先,建立大数据思维方式,学习怎样利用数据;其次,应该了解数据清理、集成、探索等相关技术;最后,洞见和商业意识也至关重要。图1-3数据科学的基本流程......
2025-09-30
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的替换词,包括数据库中的知识挖掘、知识提炼、数据/模式分析、数据考古、数据捕捞、信息收获,等等。数据挖掘方面更多的国际会议,如PAKDD,PKDD,SIAM-Data Mining,ICDM,DaWaK,SPIE-DM等。......
2025-09-30
Ⅱ型糖尿病,又称非胰岛素依赖性糖尿病,指体内胰岛素分泌相对不足的糖尿病。因为研究体质指数、腰臀比对Ⅱ型糖尿病患者血糖水平影响的数据记录数只有20条,直接删除不完整的记录会导致丢失大量有用信息,增加分析结果的不确定性。同时,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出,所以采用数据补齐方法对Ⅱ型糖尿病数据的缺失值进行处理。......
2025-09-30
以打鼾声声音特征提取为例,在基于机器学习的生物医学数据分析中,特征提取在大量医学数据中显得十分繁重而耗时。于月娜对宫颈细胞进行了图像分割和特征提取的研究。在对宫颈细胞特征提取方面的研究中,选取了合适的形状与纹理特征,通过KMeans算法进行深入研究。任丽晔对表面肌电信息进行特征提取,对不同的特征向量进行对比,选择最佳的特征向量,基于小波变换的特征提取反映信号局部性信息和时段信号变化的剧烈程度。......
2025-09-30
数据挖掘的功能是指数据挖掘通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时间序列模式和偏差分析等。关联分析的目的是找出数据库中隐藏的关联网。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析可以建立宏观的概念,发现数据的分布模式以及可能的数据属性之间的相互关系。......
2025-09-30
数据库由数据库管理系统统一管理,数据的插入、修改和检索均要通过数据库管理系统进行。软件主要包括操作系统、各种宿主语言、实用程序以及数据库管理系统。数据库管理系统是一种系统软件,它的主要功能是维护数据库并有效地访问数据库中任意部分数据。对数据库的维护包括保持数据的完整性、一致性和安全性。数据仓库的多维特征满足以多维数据为核心的多维数据分析。......
2025-09-30
相关推荐