首页 理论教育大数据挖掘技术在医药领域中的贝叶斯公式应用

大数据挖掘技术在医药领域中的贝叶斯公式应用

【摘要】:,n),则3.贝叶斯定理贝叶斯,在《An Essay towards solving a Problem in the Doctrine of Chances》中给出了贝叶斯定理。其基本求解公式:贝叶斯公式:P(B|A)是根据A判断其属于类别B的概率,称为后验概率。

1.条件概率

若(Ω,F,P)是一个概率空间,B∈F,且P(B)>0,对任意的A∈F,则

为在事件B发生的条件下,事件A发生的条件概率。

乘法定理:

设P(A)>0,则有

P(AB)=P(B|A)P(A)=P(A|B)P(B)

图3-6 集合之间的关系A

图3-7 集合之间的关系B

对立事件:A'。(要么发生A,要么发生A')A、A'互为穷举事件。

互斥事件:两个事件只有一个会发生(互斥与穷举不一样)。

相交事件:两个事件有可能同时会发生。

P(A∪B)=P(A)+P(B)-P(A∩B)

相关事件:几个事件发生概率互相有影响。

P(A|B)!=P(A)

独立事件:事件发生概率互相没影响。

P(A∩B)=P(A)P(B),P(A|B)=P(A)

图3-8 决策树示例

2.样本空间的划分

定义设Ω为试验E的样本空间,A为E的事件,B1,B2,…,Bn为Ω的一个划分,且P(Bi)>0(i=1,2,…,n),则

其中,BjBj=∅,i,j=1,2,…,n;且B1∪B2∪…∪Bn

图3-9 样本空间的划分

A=AΩ=A∩(B1∪B2∪…∪Bn

=AB1∪AB2∪…∪ABn

说明:全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果。(www.chuimin.cn)

设Ω为试验E的样本空间,A为E的事件,B1,B2,…,Bn为Ω的一个划分,且P(A)>0,P(Bi)>0(i=1,2,…,n),则

3.贝叶斯定理

贝叶斯(Thomas Bayes,1701—1761),在《An Essay towards solving a Problem in the Doctrine of Chances》中给出了贝叶斯定理。

它解决了两个事件条件概率的转换问题:

4.条件概率与贝叶斯公式

条件概率:P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫作事件B发生下事件A的条件概率。其基本求解公式:

贝叶斯公式:P(B|A)是根据A判断其属于类别B的概率,称为后验概率。P(B)是直接判断某个样本属于B的概率,称为先验概率。P(A|B)是在类别B中观测到A的概率,P(A)是在数据库中观测到A的概率。

5.条件概率与贝叶斯公式的应用

一个医疗诊断问题有两个可选的假设:病人有癌症、病人无癌症。可用数据来自化验结果:正+和负-;有先验知识:在所有人口中,患病率是0.008;对确实有病的患者的化验准确率为98%,对确实无病的患者的化验准确率为97%;总结如下:

P(cancer)=0.008,P(-cancer)=0.992

P(+|cancer)=0.98,P(-|cancer)=0.02

P(+|-cancer)=0.03,P(-|-cancer)=0.97

问题1:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症?

求后验概率P(cancer|+)和P(cancer|-)

总结如下:

P(cancer)=0.008,P(cancer)=0.992

P(+|cancer)=0.98,P(-|cancer)=0.02

P(+|cancer)=0.03,P(-|cancer)=0.97

问题2:假定有一个新病人,化验结果为正,是否应将病人断定为有癌症?

求后验概率P(cancer|+)和P(cancer|+)

P(cancer|+)=[P(+|cancer)P(cancer)]/P(+)=0.98×0.008/P(+)

P(+)=P(+|cancer)P(cancer)+P(+|cancer)P(cancer)

=0.98×0.008+0.03×0.992

P(cancer|+)=0.0078/(0.0078+0.0298)=0.21