机器学习一般根据处理的数据是否存在人为标注可分为监督学习和无监督学习。因此,监督学习的根本目标是训练机器学习的泛化能力。总之,机器学习就是计算机在算法的指导下,能够自动学习大量输入数据样本的数据结构和内在规律,给机器赋予一定的智慧,从而对新样本进行智能识别,甚至实现对未来的预测。机器学习的一般流程如图6-1所示。......
2023-06-28
决策树是最经典的机器学习方法之一,它以树形结构将决策/分类过程展现出来,简单直观、解读性强,根据适用情况的不同,有时也被称为分类树或回归树。
简单来说,建立决策树的目的即是根据若干输入变量的值构造出一个相适应的模型,从而预测出目标/输出变量的值,并以树形结构呈现。
决策树呈现倒置的树形,即最上端为树的根,最下端为树的叶。从理论上概述决策树的构建过程,包括决策树的生成和生成树的剪枝两个步骤。
(1)决策树的生成
这一过程将初始的包含大量信息的数据集,按照一定的划分条件逐层分类至不可再分或不需再分,充分生成树。具体的,在每一次分类中,先找出各个可以作为分类变量的自变量的所有可能的划分条件,再对每一个自变量,比较在各个划分条件下所得的两个分支的差异大小,选出使得分支差异最大的划分条件作为该自变量的最优划分,再将各个自变量在最优划分下所得的两个分支的差异大小进行比较,选出差异最大者作为该节点的分类变量,并采用该变量的最优划分。
(2)生成树的剪枝
由于以上过程是没有停止条件的,所得到的生成树可能会非常大,对训练集很可能存在过拟合,即对训练数据有非常高的分类准确率,但是对于新数据的分类准确率较差。因此,为了保证生成树的推广能力,需要通过剪枝过程对复杂树的节点进行删减,控制树的复杂度,并由树的叶节点数来衡量复杂度。具体的,先找出固定叶节点数下拟合效果最优的树,即局部最优模型,再比较各个叶节点数下的局部最优模型,最终选择出全局最优模型。
机器学习中的决策树可以分为两个主要类型:分类树和回归树。分类树是针对目标变量为离散型的情况,即最终目标是预测各样本的所属类别,如根据天气预报来预测人们是否会打高尔夫;回归树则适用于目标变量为连续型,如预测出某人的月收入,可以建立回归树;当预测其月收入所属区间([1000,2000]?[2000,3000]),则属于分类树范畴。有两种使用最为普遍的决策树算法:CART(classification and regression trees)和C4.5(successor of ID3)。分类回归树CART是既可以建立分类树,也可构造回归树的算法,它是许多集成分类算法的基分类器,虽然各式分类算法不断涌现,但CART仍是使用最为广泛的分类技术。C4.5是ID3(iterative dichotomiser 3)的改进算法,两者都以熵(entropy)理论和信息增益(information gain)理论为基础,其算法的精髓所在,就是使用熵值或者信息增益值来确定使用哪个变量作为各节点的判定变量,而C4.5是为了解决ID3只能用于离散型变量,即仅可以构建分类树,且确定判定变量时偏向于选择取值较多的变量这两项主要缺陷而提出的。虽然目前已有了在运行效率等方面进一步完善的算法C5.0,但由于C5.0多用于商业用途,C4.5仍是更为常用的决策树算法。
有关工业智能技术与应用的文章
机器学习一般根据处理的数据是否存在人为标注可分为监督学习和无监督学习。因此,监督学习的根本目标是训练机器学习的泛化能力。总之,机器学习就是计算机在算法的指导下,能够自动学习大量输入数据样本的数据结构和内在规律,给机器赋予一定的智慧,从而对新样本进行智能识别,甚至实现对未来的预测。机器学习的一般流程如图6-1所示。......
2023-06-28
聚类分析是一种原理简单、应用广泛的机器学习技术。聚类分析已成为机器学习研究中的一个热点。图6-3k-均值聚类算法步骤示例k-中心点聚类k-中心点算法与k-均值算法在原理上十分相近,它是针对k-均值算法易受极值影响这一缺点的改进算法。以密度聚类算法来详细说明,该方法将“簇”看作是数据空间中被低密度区域分割开的“稠密区域”,即密度相连样本点的最大集合。图6-7期望最大化聚类算法步骤示例......
2023-06-28
基于Spark+Hadoop处理技术的机器学习使得样本数量大量增加,以大量样本作为基础实现问题的分类求解。Spark不仅具有Hadoop MapReduce数据处理技术的优点,而且可以适用于需要迭代MapReduce算法的数据处理与机器学习等。通过大数据技术Spark+Hadoop进行全量数据分析,解决统计/机器学习依赖于数据抽样且不能精准反映全集的问题,揭示其全量数据分析而能精准反映全集的机理。......
2023-11-21
为提高机器学习模型的效用,我们采用5折交叉验证方法,随机从原始数据中选择10 000例,并均分成5个数据集,分别标记为1,2,…使用数据集训练机器学习模型时,每次随机选择其中一个数据集为测试集,其余4/5的数据作为训练集进行模型训练,从而建立模型。......
2023-07-31
决策树有ID3,C4.5和C5.0等多种划分方法,是一种树状划分状态,在每一个节点进行条件的判断,按照一定的划分标准最终生成决策结果,其目的是为了解决机器学习中的多分类问题,本节采用信息增益最大化来进行树的划分。决策树的训练集中训练得分为0.968,测试集中测试得分为0.767。图5.13决策树调参训练过程当节点的Gini指标小于等于某个阈值时,则表示该节点不需要进一步拆分,否则需要生成新的划分规则。......
2023-06-15
Hadoop可编写和运行分布式应用以及处理大规模数据,Mahout为一些机器学习算法框架库,但Mahout基于MapReduce计算框架,不适合处理迭代算法。因此,基于Spark和Hadoop框架结合的机器学习算法,要解决Mahout在应用迭代算法处理数据时消耗资源过多和系统整体性能下降的缺陷,提高数据处理分析的速度。基于MapReduce框架编写的Mahout机器学习库,使用HDFS技术在云基础架构上能够满足对大数据的存储要求,但I/O资源消耗过大造成系统整体性能降低[155]。......
2023-11-21
机器学习方法在大型数据库中的应用称为数据挖掘。然而,机器学习不仅仅是数据库一个方面的问题,它也是人工智能的组成部分。为了智能化,处于变化环境中的系统必须具备学习的能力。机器学习使用实例数据或过去的经验训练计算机,以优化某种性能标准。机器学习在构建数学模型时利用了统计学理论,因为其核心任务就是从样本中推理。......
2023-06-28
未来,人工智能将走进人们的生活,教育领域也不例外,比如当前研究比较热的机器学习、智能机器人和人机交互等。目前,人工智能技术在教育上的应用主要体现在图像识别和语音识别两个方面,但目前尚处于初级阶段。在人工智能的帮助下,未来的学习越来越方便。更智能的基于意识的搜索是当前机器学习与可穿戴设备领域都在探索的方向。......
2023-11-23
相关推荐