医药领域大数据挖掘技术的关联规则挖掘

2025-09-30 理论教育版权反馈

【摘要】：关联规则是寻找在同一个事件中出现的不同项的相关性。关联分析即利用关联规则进行数据挖掘。关联规则挖掘问题的描述：项目集，设I=｛i1，i2，…关联规则挖掘的目标，给定一个事务集合T，关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。

若两个或多个变量的取值之间存在某种规律性，就称为关联。关联规则是寻找在同一个事件中出现的不同项的相关性。比如，在一次购买活动中所买不同商品的相关性。关联分析即利用关联规则进行数据挖掘。

关联规则挖掘问题的描述：

项目集，设I=｛i1，i2，…，im｝是一个项目（Item）集合。比如，I=｛菊花、柴胡、黄芩、茯苓、清半夏｝。

事务数据库（事务Transaction集合），设事务数据库T=｛t1，t2，…，tn｝。该数据库是由一系列具有唯一标识TID的事务组成，每个事务ti（i=1，2，…，n）都对应I上一个子集。

关联规则的描述，X==＞Y，其中X∈I，Y∈I且X∩Y=∅；X（或Y）是一个项目的集合，称作项集（Itemset），并称X为前件，Y为后件。比如，一条关联规则：｛柴胡，黄芩｝→清半夏，其中，｛柴胡，黄芩｝是X，｛清半夏｝是Y。

支持度，如果项集X是事务ti∈T的一个子集，则称ti包含X（也称X覆盖ti）。X在T中的支持计数（Support Count，表示为X.count）是T中包含X的事务的数目。规则X∪Y的支持度是指“T中包含X∪Y的事务的百分比”。

n为T中事务的数目。支持度表示规则在事务集合T中使用的频繁程度。

置信度，规则X∪Y的置信度是指既包含了X又包含了Y的事务的数量占所有包含了X的事务的百分比。

pagenumber_ebook=62,pagenumber_book=51

置信度决定了规则的可预测度。

关联规则挖掘的目标，给定一个事务集合T，关联规则挖掘即找出T中所有满足支持度和置信度分别高于一个用户指定的最小支持度（Minsup）和最小置信度（Minconf）的关联规则。

现有中医药治疗胰腺癌的处方数据，每一行是一个处方记录，包含若干味中药，完整的数据集如表2-5所示。简化后，中医药治疗胰腺癌的处方数据有四个处方、五味中药：菊花、柴胡、黄芩、茯苓、清半夏，数据如表2-8所示。

表2-8　简化后中医药治疗胰腺癌的处方数据

pagenumber_ebook=63,pagenumber_book=52

扫描源数据库Data，可得候选项集C1如下：

表2-9　候选项集C1

pagenumber_ebook=63,pagenumber_book=52

根据最小支持数2，可得频繁项目集（Frequent Itemset）F1项集如下：

表2-10　频繁项目集F1项集

pagenumber_ebook=63,pagenumber_book=52

由F1项集构造候选项集C2如下：

表2-11　由F1项集构造候选项集C2(https://www.chuimin.cn)

pagenumber_ebook=64,pagenumber_book=53

扫描源数据库Data，可得候选项集C2中各记录的支持数如下：

表2-12　候选项集C2

pagenumber_ebook=64,pagenumber_book=53

根据最小支持数2，可得F2项集如下：

表2-13　频繁项目集F2项集

pagenumber_ebook=64,pagenumber_book=53

由F2项集构造候选项集C3如下：

表2-14　由F2项集构造候选项集C3

pagenumber_ebook=64,pagenumber_book=53

因此，最终的候选项集C3如下：

表2-15　候选项集C3

pagenumber_ebook=65,pagenumber_book=54

扫描源数据库Data，可得候选项集C3中各记录的支持数如下：

表2-16　候选项集C3

pagenumber_ebook=65,pagenumber_book=54

根据最小支持数2，可得F3项集如下：

表2-17　频繁项目集F3项集

pagenumber_ebook=65,pagenumber_book=54

表2-18　关联规则

pagenumber_ebook=65,pagenumber_book=54