首页 理论教育医药数据聚类分析:第4章成果

医药数据聚类分析:第4章成果

【摘要】:医学所关注的最核心问题就是相关性问题。胸痹心痛存在血瘀证一直是研究的热点,中医通过聚类分析证实血瘀证是胸痹心痛最危险的临床证型。有研究结果表明,血瘀证与冠脉狭窄属于距离最近的一类。本章主要讨论医药数据的聚类分析、相似度计算方法、KMeans算法、基于KMeans的药物聚类分析等问题和相关方法技术。一个好的聚类方法将会产生高质量的簇。

本章引言

《易·系辞》讲:“方以类聚,物以群分,吉凶生矣。”方是用来聚类的,所以,东方就有东方这一类的东西,南方就有南方这一类的东西。“疒”这个形符加上“丙”以后,就揭示出一个很关键的问题:疾病的相关性。医学所关注的最核心问题就是相关性问题。

证型是中医理论中认识疾病、诊断疾病、治疗疾病、判断疾病预后,进行病后调养的基础。每一个疾病都有几个不同的证型,每个证型对应了疾病不同阶段的不同病理实质。另外,证型也反映了疾病的轻重,反映了疾病的危险程度。胸痹心痛存在血瘀证一直是研究的热点,中医通过聚类分析证实血瘀证是胸痹心痛最危险的临床证型。有研究结果表明,血瘀证与冠脉狭窄属于距离最近的一类。

本章主要讨论医药数据的聚类分析、相似度计算方法、KMeans算法、基于KMeans的药物聚类分析等问题和相关方法技术。(www.chuimin.cn)

聚类分析组合而成的对象基于它们的相似性有很广泛的应用,相异度可以用多种类型的数据来计算。聚类算法可以分为划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。离群点探测和分析对于欺诈探测等非常有用,可以用统计学方法,基于距离的方法和基于偏差的方法来实现,聚类作为预处理工具可以作为回归、PCA、分类以及关联分析的预处理。在聚类分析上仍旧存在许多研究问题,如基于约束的聚类。

什么是好的聚类方法?一个好的聚类方法将会产生高质量的簇。高簇内相似性:类内凝聚性;低簇间相似性:类间区分性。判定一个聚类方法的质量好坏依赖于用于该聚类方法的相似度度量、具体实现方法、能否发现部分或者所有隐藏的模式。

数据挖掘对聚类的要求:可伸缩性,即处理不同类型属性的能力,如数值型、二元类型、分类/标称类型、序数型,发现任意形状的聚类。基于欧氏距离或曼哈顿距离,偏向于发现具有相近尺寸和密度的球状簇。