首页 历史故事交通事故数据关联挖掘分析

交通事故数据关联挖掘分析

【摘要】:读取预处理后的交通事故数据,根据经纬度信息,与这195个网格进行空间连接,为交通事故数据赋予与空间位置相对应的网格编号,以便通过Apriori算法进行关联规则挖掘。对交通事故案件类别、时间段、网格编号等属性信息进行关联规则分析,选择合适的最小支持度和最小置信度。按照关联规则长度为2,提升度大于1.1的原则进行筛选,得到共计84条强关联规则。图4.5关联规则结果

以美国纽约2015年交通事故数据展开,含182980条交通事故记录,包含发生时间、案发地经纬度、隶属街区和警局区域等信息,删除位置、时间属性,以及事故描述属性缺失的数据行。对研究区域内交通事故进行逐小时统计,发现0~6点为交通事故的低发期,6~12点为激增期,12~18点为高发期,18~24点为回退期。据此将交通事故数据的时间属性离散化为0_6,6_12,12_18,18_24。

将研究区域切割成3km×3km的空间格网,提取出与研究区域相交的共计195个网格,并对网格进行编号。读取预处理后的交通事故数据,根据经纬度信息,与这195个网格进行空间连接,为交通事故数据赋予与空间位置相对应的网格编号,以便通过Apriori算法进行关联规则挖掘。

对交通事故案件类别、时间段、网格编号等属性信息进行关联规则分析,选择合适的最小支持度和最小置信度。由于数据量过于庞大,为提取出有意义的强关联规则,设置最小支持度为0.00024,最小置信度为0.2,计算提取满足最小支持度与最小置信度的强关联规则集。按照关联规则长度为2,提升度大于1.1的原则进行筛选,得到共计84条强关联规则。通过分析得到的强关联规则,推出地理格网与时间段这两个属性之间所存在的关联关系,进而推测交通的时空规律。通过使用聚类方法将强规则分组,实现强关联规则基于矩阵可视化,如图4.5所示。圈的大小表示聚合后的支持度,6_12时间段对应31条强关联规则,12_18时间段对应24条强关联规则,18_24时间段对应19条强关联规则。

图4.5 关联规则结果