首页 历史故事犯罪时空属性的数据筛选技巧

犯罪时空属性的数据筛选技巧

【摘要】:研究数据为美国纽约市犯罪数据,含110609条犯罪记录,包含案发时间、案发地经纬度、隶属街区和警局区域等信息,作如下处理:①删除位置属性、时间属性、事故描述属性缺失的数据行;②从日期字段中,提取年份、月份、日期、小时、工作日以及天数,在时间属性信息的选取上,多次试验后选择小时和天数这两个信息。

研究数据为美国纽约市犯罪数据,含110609条犯罪记录,包含案发时间、案发地经纬度、隶属街区和警局区域等信息,作如下处理:

①删除位置属性、时间属性、事故描述属性缺失的数据行;

②从日期字段中,提取年份、月份、日期、小时、工作日以及天数(自1月1日算起),在时间属性信息的选取上,多次试验后选择小时和天数这两个信息。

③原始数据犯罪类别为30多类,根据需要建立新的犯罪类别,包含伤害犯罪、暴力犯罪、盗窃犯罪、轻型犯罪四个类别,进行编码处理。

按照10%和90%的比例将数据划分为测试集和训练集,建立lightGBM模型分类器(康军等,2020),采用排列重要性的方法,改变数据表格中某一列数据的排列,查看其对预测准确性的影响程度,发现属性的影响程度由大到小依次为:时间、纬度、经度、隶属警区、隶属街区、天数。据此把时间属性特征分离,对多行数据的时间属性变量反复进行修改和重新预测,利用已建立的lightGBM模型,分析预测结果对时间属性的依赖情况,如图6.2所示,y轴是模型预测结果相较于基线值的变化,蓝色阴影区域表示置信区间。可以看出,对于不同的案件类型,案件受时间属性信息影响的程度和变化趋势不同,轻型犯罪受影响最明显,9点到15点左右的时间段最容易发生犯罪,其他时间段尤其是夜间发生概率则会显著降低。