首页 理论教育决策树分类算法在医药领域的应用

决策树分类算法在医药领域的应用

【摘要】:决策树可以用来对未知样本进行分类。决策树分类算法使用场景,这个监督式学习算法通常被用于分类问题,它同时适用于分类变量和连续因变量。信息增益是决策树常用的分枝准则,在树的每个结点上选择具有最高信息增益的属性作为当前结点的划分属性。

决策树(Decision Tree)是一种树形结构,包括决策节点(内部节点)、分支和叶节点三个部分。其中,决策节点代表某个测试,通常对应于待分类对象的某个属性,在该属性上的不同测试结果对应一个分支。叶节点存放某个类标号值,表示一种可能的分类结果。分支表示某个决策节点的不同取值。

决策树分类算法原理:在这个算法中,我们将总体分成两个或更多的同类群,这是根据最重要的属性或者变量来分成尽可能不同的组别。回归树是预测值为叶节点目标变量的加权均值;分类树是某叶节点预测的分类值,应是造成错判损失最小的分类值。

决策树的分类过程如下:从决策树的根节点开始,从上往下沿着某个分支搜索,直到叶结点,以叶结点的类标号值作为该未知样本所属类标号。(www.chuimin.cn)

决策树可以用来对未知样本进行分类。决策树分类算法使用场景,这个监督式学习算法通常被用于分类问题,它同时适用于分类变量和连续因变量

决策树的构建:第一,决策树的属性选择,选择合适的属性作为决策树的节点去划分训练样本。信息增益是决策树常用的分枝准则,在树的每个结点上选择具有最高信息增益的属性作为当前结点的划分属性。Gini系数是一种不纯度函数,用来度量数据集的数据关于类的纯度。第二,获得大小合适的树,在适当位置停止划分过程,从而得到大小合适的决策树。一种为定义树的停止生长条件,常见条件包括最小划分实例数、划分阈值和最大树深度等。另一种方法是对完全生长决策树进行剪枝,方法是对决策树的子树进行评估,若去掉该子树后整个决策树表现更好,则该子树将被剪枝。