【摘要】:引入粗糙集理论,设计一种交通事故黑点影响因素挖掘分析模型,挖掘出导致交通事故频发的主要影响因素及各因素对事故的影响程度及其之间的规律,服务于道路安全整治。粗糙集理论能够在保持原有的分类能力不变的前提下,去除数据中的冗余信息。并且由于粗糙集理论只可以用来处理离散型属性,所以对连续属性进行属性离散化处理。
将不确定性分析与推理方法应用于交通事故黑点的影响因素分析中,仅依赖交通事故数据本身挖掘隐藏在数据背后的知识和规律(姚智胜,2005)。引入粗糙集理论,设计一种交通事故黑点影响因素挖掘分析模型,挖掘出导致交通事故频发的主要影响因素及各因素对事故的影响程度及其之间的规律,服务于道路安全整治。
粗糙集理论是一种分析不确定数据的挖掘算法。基本原理是根据已知数据库中的知识来对知识系统中不确定或者不明确的知识进行描述刻画。在粗糙集理论中,“分类”是指在特定空间上的一种等价替代关系,“概念”是指由等价关系对特定空间“分类”后所形成的集合。粗糙集理论把特定空间“分类”后形成的集合对某一“概念”赋予三种支持程度:一定支持、一定不支持和可能支持,分别对应粗糙集理论中的正域、负域和边界域。粗糙集理论能够在保持原有的分类能力不变的前提下,去除数据中的冗余信息。主要分类的方法对信息和知识进行描述和刻画,涉及的主要概念有信息系统和知识、不可分辨关系和上下近似、知识约简和属性重要度、决策规则。
1.信息系统和知识
粗糙集理论的主要研究对象为信息系统,也称作决策表,用信息系统来对研究对象进行刻画。信息系统包含所要研究的所有数据,一般使用一个数据表来表示(姚智胜,2005)。比如交通事故数据可以视为一个信息系统,每一行即一起交通事故记录,数据表中每一列代表交通事故记录中包含的属性信息,如位置信息、时间信息、致因因素等。用一个四元组来描述信息系统(印勇,2000),具体如下:

式中,U为包含所有研究对象的非空有限集合,即论域;A是包含所有属性的非空有限集合,包括条件属性C和决策属性D,A=C∪D,C∩D=∅;V=∪a∈AVa,Va是属性a的值域;f表示为每个研究对象的每个属性赋予一个属性值的信息函数。
在粗糙集理论中,“知识”象征为分辨能力(韩祯祥,1998),这种分辨能力可以根据事物的不同特征对其进行正确分类。
将交通事故数据视为一个信息系统,每一行即一起交通事故记录,数据表中每一列代表交通事故记录中包含的属性信息,如位置信息、时间信息、致因因素等。在对纽约市MN17区的交通事故黑点进行影响因素分析前,首先要进行数据预处理。首先以识别出的9个黑点路段区域作缓冲区,然后收集每个区域内的交通事故记录并整理,以黑点编号为名称分别存储在文件中。得到9个黑点路段区域共8403条事故记录,每个区域的事故记录数见表4.4。
表4.4 黑点路段区域交通事故数

编程对黑点区域内的交通事故数据进行离散化处理。首先将交通事故记录中的日期字段与每日气象数据相关联,为每条事故记录增加事故发生当天的天气、平均温度、降雨等属性。并且由于粗糙集理论只可以用来处理离散型属性,所以对连续属性进行属性离散化处理。
根据交通事故发生的日期提取出事故发生的月份,然后依据月份确定季节属性,其中“3~5月”代表“春季”,“6~8月”代表“夏季”,“9~11月”为“秋季”,“12~2月”为“冬季”。
根据交通事故发生的时间提取出事故发生的时刻属性,然后依据时刻属性确定所处的时段,其中各时段对应的时刻见表4.5。
表4.5 时段-时刻对应关系

根据日平均气温的不同将温度属性划分成“严寒”“寒冷”“温凉”“温暖”和“炎热”5个等级,其中“0℃以下”代表“严寒”,“0~10℃”代表“寒冷”,“10~20℃”代表“温凉”,“20~30℃”代表“温暖”,“30℃以上”代表“炎热”。
根据纽约市警局对交通事故致因因素的分类,将事故致因因素分成人的因素、车的因素与环境因素三大类,其中与人有关的因素共有27种,如路怒、酒驾、使用电话、司机注意力不集中等,与车有关的因素共有4种,包括刹车失灵、汽车失控、特大型车辆和其他车辆,与环境有关的因素共7种,包括动物行为、眩光、车道标志不当、道路湿滑、障碍物、路面缺陷和视线受阻。每类所包含的具体致因因素见表4.6。
表4.6 交通事故致因因素分类表

将交通事故严重程度属性离散为“一般”“轻微”“严重”三类,其中一般事故的严重程度为“0”,轻微事故的严重程度为“0.02”,严重事故的严重程度为“0.02以上”。
根据粗糙集理论及离散后的交通事故数据构建MN17区交通事故黑点影响因素挖掘分析模型,构建交通事故知识系统:

式中,ei为第i条交通事故记录,C={季节,时段,雨雪天气,雾霾天气,温度等级,人的因素,车的因素,环境因素},D={交通事故严重程度}。
2.不可分辨关系和上下近似
从条件属性中提取出属性核是粗糙集理论算法的重点,为此,需要了解不可分辨关系、上(下)近似、粗糙度。
知识库K={U,R}是由一个个小的颗粒组成。“知识”是具有颗粒性的,颗粒性越小说明越能精确地表达更多的概念。不可分辨关系是指当两个对象无法根据已有的知识进行区分时,此时两个对象之间的关系,也被称作等价关系。
基本集是论域知识中最小的颗粒,它是由论域中所有属性都相同的物体构成的集合,同一个基本集中的不同对象之间的关系是不可分辨的。因此,“知识”亦可被理解为将论域划分为一系列等效类的等效关系。
假设P(P⊆R)为论域U中的一个属性集合,IND表示不可分辨关系,IND(P)则表示在属性集合P上的不可分辨关系。进而U/P(或U/IND(P))则表示论域U被IND(P)分割成不同的部分。具体实现的伪代码如下:
算法4.1 不可分辨关系计算

在粗糙集理论中,对象a与属性集合P之间的关系有以下三种:①对象a一定属于集合P;②对象a部分属于集合P;③对象a一定不属于集合P。这种关系的划分建立在知识系统中所拥有的“知识”的基础上(张文修,2001)。


通常用粗糙度来衡量粗糙集的粗糙程度,其计算公式如下:

式中,|∗|表示集合∗的势(Cardinality),即有限集合中所包含的对象个数。aP(X)表示在等效关系P下逼近集合X的精度,0≤aP(X)≤1;当aP(X)=1时,集合X在等效关系P的划分下是明确的;当aP(X)<1时,集合X在等效关系P的划分下是不清晰的。
对离散后的交通事故记录中的属性进行编码,可以得到事故各属性取值编码见表4.7。
表4.7 交通事故各属性代码及取值编码表

对交通事故记录进行属性离散化处理后,基于粗糙集理论设计交通事故知识系统。将交通事故记录中的属性分为条件属性和决策属性,然后将交通事故数据集转换成一个二维表格,表格中的行代表一条交通事故记录,表格中的列代表交通事故记录中的属性,而每一个元素都对应着其所在列的相应属性的属性值。
为分析黑点区域的交通事故严重程度与其他属性的关系,以事故严重程度为决策属性,季节、时段、雨雪天气等其他因素为条件属性,构建交通事故严重程度的决策表见表4.8。
表4.8 交通事故信息决策表(例)

3.知识约减和属性重要度
知识约简是指在知识系统分类能力不变的情况下,对冗余知识进行剔除,对知识系统中不可缺少的知识进行保留。设有两个互相不重复的属性集合P和Q,其中Q不为空。如果Q⊆P和IND(P)=IND(Q)同时成立,则把Q称为P的一个约简(Reduce),用Red(P)来表示。属性集合P的核表示属性集合P中所有不能省去的属性集合,用Core(P)来表示,Core(P)=∩Red(P),从中可以发现核是知识系统中不可缺少的部分,通过约简可以得到所有约简和核的关系。
在决策规则的生成中,起决定性作用的是约简后的属性。约简后的属性数量与决策规则的数量之间成正相关(王庆东,2005)。知识系统中等价关系之间的依赖关系是知识约简的基础和前提。
在信息系统中,属性的重要度表示属性对分类的影响程度。重要度可能是人为赋予的,也被称作“权重”,但是在粗糙集理论中,这种重要度不依赖任何先验知识,是仅仅从数据本身出发而得到的客观值。
对每个黑点路段区域交通事故决策表进行属性约简,得到各黑点路段区域内交通事故决策表条件属性的属性重要度,并与所有黑点路段区域和整个MN17区进行对比,计算结果见表4.9,“\”表示属性重要度值为0。
表4.9 各黑点区域交通事故致因因素属性重要度

根据表4.9,可以发现,对于不同黑点路段区域,不同影响因素的属性重要度是有区别的,比如对于黑点A、H和I,“车的因素”和“环境因素”的属性重要度均为0,说明“车的因素”和“环境因素”对黑点路段区域中的交通事故的严重程度的分类没有影响;而对于黑点D,只有“时段”和“人的因素”的属性重要度不为0,说明只有“时段”和“人的因素”对黑点D路段区域内交通事故严重程度的分类有影响;对于MN17区所有黑点路段区域和整个MN17区,所有影响因素的属性重要度均不为0,说明所有影响因素都会影响事故严重程度的分类。
对于所有黑点区域和整个MN17区域,“人的因素”的属性重要度均为所有影响因素中最高的,说明“人的因素”对于交通事故的严重程度分类贡献最大,即交通事故的严重程度受“人的因素”的影响最大。
在粗糙集理论中,可以根据条件属性的属性重要度得到属性的核和约简属性,进而得到约简决策表。各黑点区域的约简决策表中属性见表4.10。
表4.10 各黑点区域交通事故约简属性集

而对于整个黑点路段区域和整个MN17区,所有条件属性的属性重要度均不为0,即所有条件属性对于事故严重程度的分类均有影响,所以不能删除。因此其约简属性即所有条件属性。
4.决策规则
对于决策表(U,C∪D),论域U被条件属性C={C1,C2,…,Cn}所划分而成的集合用{U/IND(C1),U/IND(C1),…,U/IND(Cn)}来表示,记作{c1,c2,…,cn},U被决策属性D所分割的集合用U/IND(D)来表示,记作{d}。条件属性Ci的等价类ci的取值用Des(ci)来表示,决策属性D的等价类d的取值用Des(d)来表示。因此,规则的表示如下:

满足条件Des(c1)∧Des(c2)∧…∧Des(cn)的等价类用[x]c来表示,满足Des(d)的等价类用[d]D来表示,则上述规则的置信度的计算公式如下:

上述规则的支持度的计算公式如下:

删除约简决策表中的重复实例,然后总结影响各黑点路段区域不同严重程度的交通事故的决策规则,并计算每条规则的支持度与置信度,引入关联规则挖掘中的评价指标Kulc系数作为决策规则选取的评价指标,Kulc系数值越大,说明决策规则越具有信服力,Kulc系数的计算公式如下:

式中,αC→D为规则Des(c1)∧Des(c2)∧…∧Des(cn)⇒Des(d)的置信度。
计算每条决策规则的支持度、置信度和Kulc系数,对Kulc系数由高到低进行排序,可以得到决策规则集,见表4.11,“∗”表示该属性不在此决策规则中。由决策规则集可以总结出各个黑点区域的交通事故影响因素决策规则。限于篇幅,此处仅给出黑点D区域的计算结果,不一一给出对于其他区域的计算结果。黑点D区域的约简属性为时段、雾霾天气和人为因素。
表4.11 黑点D区域交通事故影响因素分析决策规则集和评价指标(例)

续表

对于黑点D区域,可以总结出:①司机注意力不集中是导致交通事故的主要原因,贯穿在一天中(从早上到深夜);②非法吸食毒品会造成严重的交通事故;③一般事故主要发生在中午时段,主要致因因素为司机注意力不集中和跟车过紧。
为了验证基于粗糙集理论对黑点影响因素分析的结果,使用决策树对识别出的交通事故黑点路段事故的影响因素进行分析。决策树是一种通过建立树状选择结构分类规则来模拟决策时考虑多因素流程顺序的分类算法,在决策树模型中,使用CART算法进行模型的构建,对黑点路段发生的交通事故的影响因素进行分析,黑点D结果如图4.4所示。黑点D的交通事故影响因素决策树,主要结论为:①春季温度等级为严寒、寒冷或温凉时容易发生一般事故;②春季温度等级为温暖或炎热时,早上8点之前由于司机注意力不集中容易导致轻微事故,而在早上8点之后容易导致一般事故;③除春季外,其他季节容易发生一般事故。
通过对比,可以发现两种模型方法都可以总结出不同黑点路段交通事故影响因素的决策规则,这两种模型方法都是从数据本身出发的,对MN17区交通事故黑点路段事故中的影响因素进行规则的挖掘,所挖掘出的规则存在异同。在决策树模型中若不对生成的决策树进行剪枝,则会导致生成的规则过于细致,使得模型的泛化性能不够理想,经过剪枝操作,模型的泛化性能虽然得到提高,但是相应地也会丢失一些细节,而与基于决策树构建的模型相比,基于粗糙集理论构建的模型不对原始数据进行过多操作,能够尽可能多地保留数据中的细节。同时,决策树模型中对属性特征的划分可解释性较差,而基于粗糙集理论构建的模型可以计算出每个属性对于整个数据集的属性重要度,进而根据属性重要度选择重要的属性来对整个数据集进行描述。

图4.4 黑点D交通事故影响因素决策树
相关推荐