朴素贝叶斯分类器进行目标分类的基本思想是利用特征项和类别的联合概率来估计给定目标的类别概率。理论上,朴素贝叶斯分类器与其他分类方法相比具有最小的误差率。但是该模型在分类识别中假设特征项之间相互独立,而这个假设在实际应用中往往是不成立的,这给朴素贝叶斯分类器的正确分类带来了一定影响。因此,近年来大量的研究工作致力于改进朴素贝叶斯分类器,主要集中在选择特征子集和放松独立性假设在两个方面。......
2023-06-28
贝叶斯网络(BN)是基于概率分析和图论对不确定性知识进行表示的推理模型(陈云,2015),它是一种模拟人类推理过程中因果关系的不确定性处理模型。它是由节点和连接节点的有向边构成的有向无环图(DAG),其中,节点表示可观察到的变量、隐变量、未知参数等随机变量;有向边表示的是节点之间的因果关系(父节点“因”指向子节点“果”),节点之间因果关系强度用条件概率表示。
贝叶斯网络可以将决策相关的各种信息纳入网络结构中,按节点的方式统一进行处理,并用条件概率表达各个信息要素之间的相关关系,能在不完整、不确定的信息条件下进行学习和推理(陈坤,2013)。贝叶斯网络作为一种不确定性的因果关联模型,具有多元知识图解可视化形式,强大的不确定性问题处理能力以及多源信息表达和融合能力(曾华军,2003),通过概率推理来实现事件发生的预测,在统计决策、专家系统和学习预测方面得到了较为广泛的应用。
贝叶斯分类器是用于分类的贝叶斯网络,它是各种分类器中分类错误概率最小或者在预先给定代价的情况下平均风险最小的分类器(李娜,2008)。其分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
贝叶斯决策论通过相关概率已知的情况下利用误判损失来选择最优的类别分类(宫明秀,2002)。将样本的类别记为c,样本的特性记为x,则“风险”(误判损失)就可以用原本为cj的样本误分类成ci产生的期望损失来衡量,期望损失可通过下式计算:
其中,λ是误分类所导致的损失。为了最小化总体风险,只需在每个样本上选择能够使条件风险R(c|x)最小的类别标记。
朴素贝叶斯分类器是贝叶斯分类器中最简单,也是最常见的一种分类方法。朴素贝叶斯算法是有监督的学习算法,解决的是分类问题。基于属性条件独立性假设,后验概率P(c|x)的估计公式为:
式中,d为属性数目;xi为x在第i个属性上的取值;P(c)是类“先验”概率,P(x|c)是样本x相对于类标记c的类条件概率;P(x)是用于归一化的“证据”因子,对于给定样本x,证据因子P(x)与类标记无关。于是,估计P(c|x)的问题变为基于训练数据来估计P(c)和P(x|c)。P(c)可通过各类样本出现的频率来进行估计。
通过对纽约市曼哈顿区2014年至2017年的交通事故数据构造朴素贝叶斯网络,对事故中伤亡人数进行分析。数据集内容包括伤亡人数、季节、工作/休息日、节假日、天气、时间段、风速、气温、邮政区、事故因素、事故车是否是大型车辆、事故车车辆类型1及事故车车辆类型2等数据属性。数据集中5500条数据用于训练,525条数据用于验证。
计算结果如图4.1所示。根据结果显示,该地区的交通事故的伤亡人数主要与天气、时间段、工作/休息日、气温、事故因素类型、事故车辆是否是大型车辆、事故车辆类型等因素有关。同时,事故因素类型、事故车辆类型与时间段、天气等又存在内在联系。
在验证数据集中,有525条验证数据,411条数据得到正确分类,在95%的置信区间内,分类正确率为78.29%±3.53%。
图4.1 相关性分析结果
有关应急大数据的空间分析与多因素关联挖掘的文章
朴素贝叶斯分类器进行目标分类的基本思想是利用特征项和类别的联合概率来估计给定目标的类别概率。理论上,朴素贝叶斯分类器与其他分类方法相比具有最小的误差率。但是该模型在分类识别中假设特征项之间相互独立,而这个假设在实际应用中往往是不成立的,这给朴素贝叶斯分类器的正确分类带来了一定影响。因此,近年来大量的研究工作致力于改进朴素贝叶斯分类器,主要集中在选择特征子集和放松独立性假设在两个方面。......
2023-06-28
,xn}输出:未知样本X所属类别号3.朴素贝叶斯分类算法演示表3-9朴素贝叶斯示例数据集样本X7={打喷嚏,建筑工人,?朴素贝叶斯分类算法的优点在于容易实现,在大多数情况下所获得的结果比较好。......
2023-11-08
莫兰指数I用标准化统计量Z来检验n个区域是否存在空间自相关关系,当Z值为正且显著时,表明存在正的空间自相关;当Z值为负且显著时,表明存在负的空间自相关,相似的观测值趋于分散分布;当Z值为零时,观测值呈独立随机分布。交通事故发生率的莫兰指数I为0.28,G观测值为0.001126,表明交通事故发生率具有强烈的空间相关性、聚集性,即某地的交通事故与该地区的位置有关。图3.21局部莫兰指数......
2023-06-15
重大突发事件下应急服务设施选址轴辐网络布局受到各种因素的影响,而且这种因素具有明显的不确定性,但综合考虑各类因素,实质是对应急服务设施需求的不断变化,即该地区的应急服务设施的重要性不同。......
2023-09-19
,Bn两两互不相容,且满足B1∪B2∪…∪Bn=Ω),则当P>0(i=1,2,…,n)时,对任意事件A有注 使用全概率公式解题时,可按以下原则寻找完全事件组B1,B2,…,Bn都较A先发生.贝叶斯公式:设B1,B2,…精解 先引入有关事件:A1={甲表演},A2={乙表演},A3={丙表演},B={一次命中一次未命中},则由于B与A1,A2,A3有关,且A1,A2,A3是发生于B之前的一个完全事件组,因此由全概率公式得所以......
2023-10-27
(一)网络支付的类型及概念辨析网络支付是以互联网等网络为支付渠道,通过第三方网络支付机构与商业银行间的支付接口,在商户、客户以及银行间完成支付服务的流程。我们在分类的基础上,对不同类型的网络支付概念予以辨析,以加深理解。第三方支付公司实行准入许可制度,由中国人民银行负责颁发《支付业务许可证》牌照,发放的支付牌照有三种:网络支付、预付卡的发行与受理及银行卡收单。......
2023-07-05
全局莫兰指数I是评价全局自相关性最常用的指标。全局莫兰指数I需要进行零假设检验,首先假定研究对象不存在空间相关性,然后通过Z得分检验来验证假设是否成立。表5.2全局自相关分析结果图5.9是2020年新冠肺炎确诊病例率全局自相关莫兰散点图,每个点代表了一个街区的集聚类型,第一象限为高-高集聚区,第二象限为低-高聚集区,第三象限为低-低集聚区,第四象限为高-低集聚区。......
2023-06-15
综上,考虑选择建造的应急服务设施点的数目为6个或7个。由此可知,当算例规模较小时,使用分支定界法得全局最优解计算效率很高。以最大化最小覆盖水平模型求解为例。②目标偏差率最小化模型求解得到的最大偏差率最小,能更好地均衡各个目标。为更好地与分支定界法求解结果进行对比以及分析NSGA-Ⅱ的算法有效性,本节更改设定算法程序中目标个数,分别求解单目标、两目标和三目标模型,并分析求解结果。......
2023-09-19
相关推荐