首页 理论教育基于朴素贝叶斯的分类器介绍

基于朴素贝叶斯的分类器介绍

【摘要】:朴素贝叶斯分类器进行目标分类的基本思想是利用特征项和类别的联合概率来估计给定目标的类别概率。理论上,朴素贝叶斯分类器与其他分类方法相比具有最小的误差率。但是该模型在分类识别中假设特征项之间相互独立,而这个假设在实际应用中往往是不成立的,这给朴素贝叶斯分类器的正确分类带来了一定影响。因此,近年来大量的研究工作致力于改进朴素贝叶斯分类器,主要集中在选择特征子集和放松独立性假设在两个方面。

朴素贝叶斯分类器进行目标分类的基本思想是利用特征项(特征分量)和类别的联合概率来估计给定目标的类别概率。该模型假定特征向量的各个分量间对于决策变量时相对独立的,即目标是基于特征项的一元模型,当前项的出现依赖于目标类别但不依赖于其他特征项。

训练集中的每个样本可以用一个n维特征向量V={t1t2,…,tnCi}表示,其中,Ci是类别标记,1≤imtk是特征项,1≤kn。进行分类时,目标T被标记为Ci,当且仅当

PCiT)﹥PCjT),1≤jmij (3-20)

根据概率理论的贝叶斯公式可知P (A|=B)=[P (A)P (BA)]/P (B)。应用此表达式,PCiT)的计算可以表达为

其中,PCi)为Ci类目标的出现概率,其计算比较简单。在n分类中,如果训练集里各个类别的样本数目相同,则PCi)可以取1/nP (TCi)和PT)的具体实现,通常又分为两种模型。

1.多元伯努利模型(Multi-variate Bernouli Model)

目标T采用DF向量表示法[129],即模式向量V的每个分量都是一个布尔值,0表示相应的特征项在该目标中未出现,1表示特征项在目标中出现。在这种方法中

因此

其中,P (tkCi)是对Ci类目标中特征tk出现的条件概率的拉普拉斯估计:

其中,N (tkCi)是训练集中含有特征tk且属于Ci类的样本数,NCi)为训练集中Ci类样本的数目,M表示类别的数量。

2.多项式模型(Multinomial Model)

若目标T采用TF向量表示法[129],即模式向量V的分量为相应特征项在该目标中出现的频度。则目标T属于Ci类的概率为

其中,TF (tkT)是目标T中特征tk出现的频度,Ptk|Ci)是对在Ci类目标中特征tk出现的条件概率的拉普拉斯估计:

这里,TF (tkCi)是Ci类目标中特征tk出现的频度,V为特征分量的总数,即目标表示中所包含的不同视觉单词的总数目。

朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。它可以在线性时间内学习完所有的训练集,并渐近地更新其参数,数据到达的顺序和分类错误均不影响分类器的学习过程。理论上,朴素贝叶斯分类器与其他分类方法相比具有最小的误差率。但是该模型在分类识别中假设特征项之间相互独立,而这个假设在实际应用中往往是不成立的,这给朴素贝叶斯分类器的正确分类带来了一定影响。因此,近年来大量的研究工作致力于改进朴素贝叶斯分类器,主要集中在选择特征子集和放松独立性假设在两个方面。