数据清理是指填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。主要针对缺失值数量较少且删除数据对整体数据几乎没有影响的数据进行处理,也可以根据数据缺失挖掘信息。......
2023-11-08
慢性胃炎(CG)是消化系统的一种常见病、多发病,可分为浅表性胃炎和萎缩性胃炎,其发病率逐年上升,在各种胃病中居首位,对人类健康危害较大。现代医学认为该病的发生与幽门螺杆菌(Hp)感染、胃动力障碍中枢神经功能失调等有关。对其治疗多采用保护胃黏膜,减少胃酸分泌,促进胃肠蠕动抑制Hp感染等,但存在较高复发率。而中医经过长期临床实践,积累了丰富的经验。
药物的科学配伍是方剂获取生物效应的关键,揭示方剂配伍规律对指导临床和新药开发具有重要意义,是中医药现代化研究的重要组成部分。方剂配伍规律的数据挖掘方法研究,旨在在中医理论的指导下通过引入关联规则、聚类分析和分类规则等数学方法,结合计算机技术,从大量的、不完全的、有噪音的、模糊的、随机的数据中提取隐含、事先未知但又潜在有用的以及最终可被理解的知识。
关联规则是数据挖掘中的一项重要技术,反映了大量数据中项目集之间的关联或相关联系。下面做用关联规则方法研究知名老中医防治慢性胃炎配方规律的预处理。
收集宁夏基层知名老中医马祥对慢性胃病的治疗药方,建立处方数据表,如表1-5所示。
表1-5 处方数据表
药名的预处理。由于中药方剂的来源已经跨度了几千年,所以许多药物的命名表述极不一致。中药药名常根据药物的形状、产地、颜色、功效等特征来命名,几乎每一种药物都存在一物多名的情况,如白及又称为白芨、坚白及、白及片等。以《现代实用中药学》作为药名信息的来源,极少数《现代实用中药学》未收载的中药,以《中国药物大全》作为信息来源。建立慢性胃炎常用药以及马祥治疗慢性胃炎用药的药名表,药名表的主要字段有编码、标准药名、药名、处方用名、性味、归经和功效,简化后如表1-6所示。
表1-6 药品名称数据表
预处理目标:(1)Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。因此,为了使用Weka对收集的宁夏基层老中医马祥治疗慢性胃病的治疗药方进行关联分析,拟将这些数据转化后满足Weka中关联规则Apriori算法的输入数据要求,即以处方数量为行记录,总的药品数量为列的大小,如果某味药在当前的处方中出现,则该矩阵元素值为“t”,否则为“?”。(2)为了使用Python语言对宁夏基层老中医马祥治疗慢性胃病的治疗药方进行更多的数据探索分析,拟生成以处方数量为行记录,各列是处方中出现的药品名称的记录,每行对应的列的大小由该处方包含的药品数量决定。
使用Python编写中药方剂预处理程序Preprocessing.py,可得预处理目标1的结果,如表1-7所示;预处理目标2的结果,如表1-8所示。(www.chuimin.cn)
表1-7 预处理结果A表
表1-8 预处理结果B表
(续表)
有关大数据挖掘技术及其在医药领域的应用的文章
数据清理是指填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。主要针对缺失值数量较少且删除数据对整体数据几乎没有影响的数据进行处理,也可以根据数据缺失挖掘信息。......
2023-11-08
常用的数据挖掘方法有四大类,分别对应四个问题,这四个问题是数据挖掘的基础,分别是聚类挖掘、分类挖掘、关联模式挖掘和异常值检测。1)K最近邻分类算法K最近邻分类算法可以说是整个数据挖掘分类技术中最简单的方法。目前,数据挖掘领域有大量的聚类算法。......
2023-06-21
白参既容易生虫,又容易发霉、变色。可将其剔除干净后,放入布袋置木盒内,或装入纸袋、纸盒内,再放入生石灰缸中密封贮存。可用油纸包好,埋入谷糠中密闭贮存,使外界湿空气被谷糠吸收,从而起到保护药物的作用。上述名贵中药都以冷藏法(—5℃)保存效果最佳,既可杀灭蛀虫,防止真(霉)菌生长繁殖,又可防止中药色变,如已霉烂变质,或大量生虫结块,则不宜再使用。......
2023-12-04
Weka工具的关联规则挖掘过程如图2-3所示。图2-4Weka选择函数设置Apriori算法的参数如下:car如果设为真,则会挖掘类关联规则而不是全局关联规则。delta以此数值为迭代递减单位,不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。设置对规则进行排序的度量依据,可以是置信度、提升度、杠杆率、确信度。在Weka中设置了几个类似置信度的度量来衡量规则的关联程度,它们分别是,①Lift:P(A,B)/Lift=1时表示A和B独立。......
2023-11-08
关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述:项目集,设I={i1,i2,…关联规则挖掘的目标,给定一个事务集合T,关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。......
2023-11-08
子任务一原辅料及预处理一、酱油生产主要原料原料质量决定着酱油产品的质量,原料选取标准:一是蛋白质含量较高,碳水化合物适量,有利于制曲和发酵;二是无毒无异味,优质豆类和淀粉类物质;三是资源丰富,价格低廉,容易收集,便于运输和保管,有利于原料的综合利用。(一)蛋白质原料蛋白质是构成酱油中氮元素及鲜味的主要来源,也是构成酱油色素的基础物质。......
2023-12-07
4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2023-06-16
购买的种子,应附带供应商对其使用的化学品名称记录。水稻种子在生长过程中极易感染和携带许多病原菌。有些病害发生在水稻幼苗期,救治已无可能,所以,只有对种子进行预处理,才可以有效预防病菌对稻苗的侵害。......
2023-06-20
相关推荐