首页 理论教育中药方剂挖掘的预处理方法

中药方剂挖掘的预处理方法

【摘要】:下面做用关联规则方法研究知名老中医防治慢性胃炎配方规律的预处理。表1-5处方数据表药名的预处理。表1-6药品名称数据表预处理目标:Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。使用Python编写中药方剂预处理程序Preprocessing.py,可得预处理目标1的结果,如表1-7所示;预处理目标2的结果,如表1-8所示。

慢性胃炎(CG)是消化系统的一种常见病、多发病,可分为浅表性胃炎和萎缩性胃炎,其发病率逐年上升,在各种胃病中居首位,对人类健康危害较大。现代医学认为该病的发生与幽门螺杆菌(Hp)感染、胃动力障碍中枢神经功能失调等有关。对其治疗多采用保护胃黏膜,减少胃酸分泌,促进胃肠蠕动抑制Hp感染等,但存在较高复发率。而中医经过长期临床实践,积累了丰富的经验。

药物的科学配伍是方剂获取生物效应的关键,揭示方剂配伍规律对指导临床和新药开发具有重要意义,是中医药现代化研究的重要组成部分。方剂配伍规律的数据挖掘方法研究,旨在在中医理论的指导下通过引入关联规则、聚类分析和分类规则等数学方法,结合计算机技术,从大量的、不完全的、有噪音的、模糊的、随机的数据中提取隐含、事先未知但又潜在有用的以及最终可被理解的知识。

关联规则是数据挖掘中的一项重要技术,反映了大量数据中项目集之间的关联或相关联系。下面做用关联规则方法研究知名老中医防治慢性胃炎配方规律的预处理。

收集宁夏基层知名老中医马祥对慢性胃病的治疗药方,建立处方数据表,如表1-5所示。

表1-5 处方数据表

药名的预处理。由于中药方剂的来源已经跨度了几千年,所以许多药物的命名表述极不一致。中药药名常根据药物的形状、产地、颜色、功效等特征来命名,几乎每一种药物都存在一物多名的情况,如白及又称为白芨、坚白及、白及片等。以《现代实用中药学》作为药名信息的来源,极少数《现代实用中药学》未收载的中药,以《中国药物大全》作为信息来源。建立慢性胃炎常用药以及马祥治疗慢性胃炎用药的药名表,药名表的主要字段有编码、标准药名、药名、处方用名、性味、归经和功效,简化后如表1-6所示。

表1-6 药品名称数据表

预处理目标:(1)Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。因此,为了使用Weka对收集的宁夏基层老中医马祥治疗慢性胃病的治疗药方进行关联分析,拟将这些数据转化后满足Weka中关联规则Apriori算法的输入数据要求,即以处方数量为行记录,总的药品数量为列的大小,如果某味药在当前的处方中出现,则该矩阵元素值为“t”,否则为“?”。(2)为了使用Python语言对宁夏基层老中医马祥治疗慢性胃病的治疗药方进行更多的数据探索分析,拟生成以处方数量为行记录,各列是处方中出现的药品名称的记录,每行对应的列的大小由该处方包含的药品数量决定。

使用Python编写中药方剂预处理程序Preprocessing.py,可得预处理目标1的结果,如表1-7所示;预处理目标2的结果,如表1-8所示。(www.chuimin.cn)

表1-7 预处理结果A表

表1-8 预处理结果B表

(续表)