首页 理论教育贝叶斯分类算法演示及应用

贝叶斯分类算法演示及应用

【摘要】:,xn}输出:未知样本X所属类别号3.朴素贝叶斯分类算法演示表3-9朴素贝叶斯示例数据集样本X7={打喷嚏,建筑工人,?朴素贝叶斯分类算法的优点在于容易实现,在大多数情况下所获得的结果比较好。

1.贝叶斯分类方法

贝叶斯分类方法是一种基于统计的学习方法,是一种利用概率统计知识进行学习分类的方法,如预测一个数据对象属于某个类别的概率。主要算法:朴素贝叶斯分类算法(Naive Bayes),贝叶斯信念网络分类算法等。

2.朴素贝叶斯分类算法(Naive Bayes)

朴素贝叶斯分类算法利用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。

设数据集为D,对应属性集:{A1,A2,…,An,C}

A1,A2,…,An是样本的属性变量,C是有m个取值C1,C2,…,Cm的类标号属性变量。

数据集D中的每个样本X可以表示为X={x1,x2,…,xn,Ci

朴素贝叶斯分类算法的概念描述如下:

P(Ci|X)>P(Cj|X)

1≤j≤m,j≠i

根据贝叶斯定理:

类的先验概率P(Ci)可以用si/s来估计,其中si是数据集D中属于类Ci的样本个数,s是数据集D的样本总数。

朴素贝叶斯假定一个属性值对给定类的影响独立于其他属性值,属性之间不存在依赖关系,这样:

样本的各个属性变量之间:

独立事件,事件发生概率互相没影响。

P(A∩B)=P(A)P(B),P(A|B)=P(A)

相关事件,几个事件发生概率互相有影响。

P(A|B)!=P(A)

对未知样本X分类,对每个类Ci,计算P(X|Ci),样本X被指派到类别Ci中,当且仅当:P(X|Ci)P(Ci)>P(X|Cj)P(Cj),1≤j≤m,j≠i

即X被指派到最大的类别中。

朴素贝叶斯分类算法的基本描述。

函数名:NaiveBayes

输入:类标号未知的样本X={x1,x2,…,xn

输出:未知样本X所属类别号

3.朴素贝叶斯分类算法演示

表3-9 朴素贝叶斯示例数据集

样本X7={打喷嚏,建筑工人,?}

该问题描述如下:

样本X7={打喷嚏,建筑工人,?}

类标号“疾病”有3个取值{感冒,过敏,脑震荡}

题目即求:

样本X7为“感冒”的概率P(疾病=感冒|X7

样本X7为“过敏”的概率P(疾病=过敏|X7

样本X7为“脑震荡”的概率P(疾病=脑震荡|X7

样本X7将被预测为概率值大的那个类。

样本X7={打喷嚏,建筑工人,?}

P(X7)=P(症状=打喷嚏,职业=建筑工人)

    =P(症状=打喷嚏)P(职业=建筑工人)(www.chuimin.cn)

    =3/6×2/6

    =0.1667

根据朴素贝叶斯定理:

P(疾病=感冒|X7

=P(X7|疾病=感冒)P(疾病=感冒)/P(X7

=P(症状=打喷嚏|疾病=感冒)P(职业=建筑工人|疾病=感冒)P(疾病=感冒)/P(X7

=2/3×1/3×3/6/P(X7

=0.1111/P(X7)=0.6665

样本X7={打喷嚏,建筑工人,?}

P(X7)=P(症状=打喷嚏,职业=建筑工人)

    =P(症状=打喷嚏)P(职业=建筑工人)

    =3/6×2/6

    =0.1667

根据朴素贝叶斯定理:

P(疾病=过敏|X7

=P(X7|疾病=过敏)P(疾病=过敏)/P(X7

=P(症状=打喷嚏|疾病=过敏)P(职业=建筑工人|疾病=过敏)P(疾病=过敏)/P(X7

=1/1×1/7×1/6/P(X7

=0.0238/P(X7)=0.1428

根据朴素贝叶斯定理:

P(疾病=脑震荡|X7

=P(X7|疾病=脑震荡)P(疾病=脑震荡)/P(X7

=P(症状=打喷嚏|疾病=脑震荡)P(职业=建筑工人|疾病=脑震荡)P(疾病=脑震荡)/P(X7

=1/7×1/2×2/6/P(X7

=0.0238/P(X7)=0.1428

该问题描述如下:

样本X7={打喷嚏,建筑工人,?}

计算:

P(疾病=感冒|X7)=0.6665

P(疾病=过敏|X7)=0.1428

P(疾病=脑震荡|X7)=0.1428

样本X7将被预测为概率值大的那个类,即为“感冒”。

4.贝叶斯算法处理流程

第一阶段——准备阶段:该阶段为朴素贝叶斯分类做必要的准备。主要是依据具体情况确定特征属性,并且对特征属性进行适当划分。然后就是对一部分待分类项进行人工划分,以确定训练样本。这一阶段的输入是所有的待分类项,输出是特征属性和训练样本。分类器的质量很大程度上依赖于特征属性及其划分以及训练样本的质量。

图3-10 贝叶斯算法处理流程

第二阶段——分类器训练阶段:主要工作是计算每个类别在训练样本中出现的频率以及每个特征属性划分对每个类别的条件概率估计。输入的是特征属性和训练样本,输出的是分类器。

第三阶段——应用阶段:这个阶段的任务是使用分类器对待分类项进行分类,其输入的是分类器和待分类项,输出的是待分类项与类别的映射关系。

朴素贝叶斯分类算法的优点在于容易实现,在大多数情况下所获得的结果比较好。缺点:算法成立的前提是假设各属性之间互相独立,当数据集满足这种独立性假设时,分类准确度较高。而在实际领域中,数据集可能并不完全满足独立性假设。