首页 历史故事基于决策树的疫情风险评估方法

基于决策树的疫情风险评估方法

【摘要】:决策树有ID3,C4.5和C5.0等多种划分方法,是一种树状划分状态,在每一个节点进行条件的判断,按照一定的划分标准最终生成决策结果,其目的是为了解决机器学习中的多分类问题,本节采用信息增益最大化来进行树的划分。决策树的训练集中训练得分为0.968,测试集中测试得分为0.767。图5.13决策树调参训练过程当节点的Gini指标小于等于某个阈值时,则表示该节点不需要进一步拆分,否则需要生成新的划分规则。

决策树有ID3,C4.5和C5.0等多种划分方法,是一种树状划分状态,在每一个节点进行条件的判断,按照一定的划分标准最终生成决策结果,其目的是为了解决机器学习中的多分类问题(方匡南等,2011),本节采用信息增益最大化(ID3法)来进行树的划分。

ID3:由增熵(Entropy)原理来决定哪个做父节点,哪个节点需要分裂。对于一组数据,熵越小说明分类结果越好(黄文,2007)。熵定义如下:

式中,p(xi)为xi出现的概率。

针对最简单的2分类问题,第一类与第二类各占一半的时候:

当只有第一类或者只有第二类时:

所以Entropy介于0与1之间,当值取1时,分类效果最差,熵等于0是理想状态,当值取0时,分类效果最好。依照2/8的划分准则,从768个网格中随机抽取一部分作为训练。决策树的训练集中训练得分为0.968,测试集中测试得分为0.767。随着树的深度加深,当树深为10时,在测试集中得分较高,而随着树的深度继续加深,并没有更好的提升,如图5.13所示。

图5.13 决策树调参训练过程

当节点的Gini指标小于等于某个阈值时,则表示该节点不需要进一步拆分,否则需要生成新的划分规则。利用纽约地区不同社区的属性对社区确诊人数驱动要素进行分析,最终总结出合适的规则。