首页 历史故事交通事故预测:随机森林模型训练与应用

交通事故预测:随机森林模型训练与应用

【摘要】:表4.13数据量化示例本研究共统计了5618起交通事故样本,随机选取全部样本的80%作为训练样本,20%作为测试样本。随机森林模型中有两类需要调整的参数,两类参数分别来自装袋算法框架和分类回归树。图4.6随机森林模型指标权重为了验证模型的预测性能和泛化性能,利用测试集进行预测,准确率为81.32%,测试集的拟合程度如图4.7所示。

交通事故影响因素涉及环境、人、车等因素,结合数据收集与文献查阅等方法,筛选了相关性较高的变量作为预测交通事故的主要指标,见表4.12。

表4.12 影响指标

续表

对于本研究数据,需要进行数量化处理,其中“是否在白天”、“是否在假期”是布尔型变量,直接赋值0和1即可。对于其他本研究变量,依次编码数值。把事故严重程度作为因变量进行训练和预测,事故的严重程度是根据伤亡人数来确定的,见表4.13,其他数据同理。

表4.13 数据量化示例

本研究共统计了5618起交通事故样本,随机选取全部样本的80%作为训练样本,20%作为测试样本。随机森林模型中有两类需要调整的参数,两类参数分别来自装袋算法框架和分类回归树。

装袋算法框架有两个重要参数:①最大决策树个数,最大决策树个数太小或太大,可能会导致模型的欠拟合或过拟合,而且当该参数大到一定程度时,对模型的提升不会有明显的帮助。因此我们需要寻找一个合适的值,一般情况下默认是100;②袋外分数,袋外分数是随机森林模型泛化能力的直接体现,是评估一个模型好坏与否的重要标准。

分类回归树的参数主要用来控制决策树,防止决策树过拟合。决策树中最重要、对模型影响最大的4个参数:①决策树划分节点时考虑的最大特征个数,需要一个合适的值来控制决策树的生成速度和质量;②决策树允许的最大深度,在数据量和特征数较多的情况下决策树会很庞大,通过限制决策树的最大深度,可以减小决策树,防止过拟合;③内部节点再划分所需的最小样本数,该参数值限制了决策树内部节点继续划分的条件,如果某个节点的样本数量小于这个值,则该节点处不会再选择最佳特征来进行划分;④叶子节点处含有的最小样本数,如果叶子节点处的样本数小于这个值,则应剪掉该节点和它的兄弟节点。

建立模型时用调参的过程和结果:将最大决策树个数的索引范围设置为(10,200),当最大决策树个数取79时,准确率最高,为0.9982;将决策树划分节点时考虑的最大特征个数的索引范围设置为(1,10),当决策树划分节点时考虑的最大特征个数取4时,准确率最高,为0.9986;将决策树允许的最大深度的索引设置范围为(1,50),当决策树允许的最大深度取24时,准确率最高,为0.9984;将内部节点再划分所需的最小样本数的索引设置范围为(2,50),当内部节点再划分所需的最小样本数取2时,准确率最高,为0.9986;将叶子节点处含有的最小样本数的索引设置范围为(1,50),当叶子节点处含有的最小样本数取1时,准确率最高,为0.9986。

为了分析影响纽约交通事故的特征,输出特征重要性如图4.6所示,由此可知,风速、温度、事故原因、涉及车辆等指标对纽约交通事故的伤亡程度影响较大。

图4.6 随机森林模型指标权重

为了验证模型的预测性能和泛化性能,利用测试集进行预测,准确率为81.32%,测试集的拟合程度如图4.7所示。这意味着模型不仅对训练样本具有较好的拟合效果,对于测试集也具有较好的预测能力和泛化能力,由此验证了该模型在预测纽约市交通事故严重程度的可行性和有效性。

将全部样本代入模型,以此来预测纽约市的交通事故,准确率为96.16%,拟合效果如图4.8所示。

图4.7 测试样本真实值与预测值对比

图4.8 全部样本真实值与预测值对比