首页 历史故事提取犯罪事件时空关联规则

提取犯罪事件时空关联规则

【摘要】:对盗窃犯罪案件类别、时间段、网格编号等属性信息,选择合适的支持度和置信度阈值,进行关联规则挖掘。按照关联规则长度为3,提升度大于1.2的原则进行筛选,得到共计68条强关联规则。通过分析得到的强关联规则,推出犯罪类型、网格号与时间段这三个案件属性之间所存在的关联关系,进而推测盗窃犯罪的时空规律。

对盗窃犯罪案件类别、时间段、网格编号等属性信息,选择合适的支持度和置信度阈值,进行关联规则挖掘。由于数据量过于庞大,为提取出有意义的强关联规则,设置最小支持度为0.0007,最小置信度为0.2,计算提取满足最小支持度与最小置信度的强关联规则集。按照关联规则长度为3,提升度大于1.2的原则进行筛选,得到共计68条强关联规则。0~6时间段,由于案发数目相对而言较少,规则由于支持度较小被淹没,仅有6条强关联规则,6~12时间段对应9条强关联规则,12~18时间段对应27条强关联规则,18~24时间段对应26条强关联规则。通过分析得到的强关联规则,推出犯罪类型、网格号与时间段这三个案件属性之间所存在的关联关系,进而推测盗窃犯罪的时空规律。部分强关联规则见表6.3,以关联规则“{案件类别=轻型犯罪,地理格网=120}=>{时间段=6_12}”为例,在这条记录中,规则前项是{案件类别=轻型犯罪,地理格网=120},规则后项是{时间段=6_12},表示在网格编号为120的区域,在6_12时间段最有可能发生轻型犯罪。

表6.3 部分强关联规则

使用聚类方法将强规则分组,若规则前项和后项统计上是相似的则被归为一类,实现强关联规则基于矩阵可视化,如图6.18所示。横坐标为关联规则前项的数目,纵坐标为关联规则后项,圆圈的颜色深浅表示提升度的大小,圆圈的大小表示聚合后的规则支持度相对大小。可以发现,在12~18时间段的强关联规则在数量、支持度和置信度方面更为均衡,其时空关联性更为显著,且出现多个小的聚类中心,更有助于相关部门在关键时段和关键区域进行警力重点配置。