分段计算法就是把时间分成一个个小段,在每一个小段时间内,把变加速运动近似地看成是等加速运动来解。为了提高计算精度,我们取时间段初和时间段末的加速度的平均值,作为计算每个时间段速度增量的加速度。图15-5切除故障瞬间的过剩功率图15-6转子摇摆曲线1—稳定;2—不稳定分段计算法的计算精度与所选用的时间段的长短(即步长)有关,Δt太大,固然精度下降;Δt过小,除增加计算量外,也会增加计算过程中的累计误差。......
2023-06-15
在当今的现实生活中存在着很多种微信息量的数据,如何采集这些数据中的信息并进行利用,成为了数据分析领域里一个新的研究热点。机器学习方法是处理这样的数据的理想工具。随机森林以它自身固有的特点和优良的分类效果在众多的机器学习算法中脱颖而出。随机森林算法的实质是基于决策树的分类器集成算法,其中每一棵树都依赖于一个随机向量,森林中的所有的向量都是独立同分布的。
随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,神经网络预测精确,但是计算量很大。20世纪80年代,Breiman等人发明分类树的算法,通过反复二分数据进行分类或回归,计算量大大降低。2001年,Breiman把分类树组合成随机森林,即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。
随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元共线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用,被誉为当前最好的算法之一。
随机森林是一个树型分类器的集合。其中元分类器是用CART算法构建的没有剪枝的分类决策树;森林的输出采用简单多数投票法,或者是单棵树输出结果的简单平均得到。其中简单集成分类回归树多数投票法主要针对分类模型,单棵树输出结果的简单平均主要针对回归模型。
随机森林是通过自助法(boot-strap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练集样本集合,然后根据自助样本集生成k个决策树组成的随机森林,新数据的分类结果按决策树投票多少形成的分数而定。随机森林的实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样本,森林中的每棵树具有相同的分布,分类误差取决于每一棵决策树的分类能力和它们之间的相关性。特征选择采用随机的方法去分裂每一个节点,然后比较不同情况下产生的误差,能够监测到内在估计误差、分类能力和相关性决定选择特征的数目。单棵决策树的分类能力可能很小,但在随机产生大量的决策树后,一个测试样本可以通过每一棵树的分类结果经统计后选择最可能的分类。
随机森林其实可以通俗地理解为由许多棵决策树组成的森林,而每个样本需要经过每棵树进行预测,然后根据所有决策树的预测结果最后确定整个随机森林的预测结果。随机森林中的每一棵决策树都为二叉树,其生成遵循自顶向下的递归分裂原则,即从根节点开始依次对训练集进行划分。在二叉树中,根节点包含全部训练数据,按照节点不纯度最小原则,分裂为左节点和右节点,它们分别包含训练数据的一个子集,按照同样的规则,节点继续分裂,直到满足分支停止规则而停止生长。
随机森林在建立模型以及进行预测的具体步骤如图6-8所示。
图6-8 随机森林建模预测步骤
①用N表示原始训练集样本的个数,用M表示变量的数目。
②需要确定一个定值m,该值被用来决定当在一个节点上做决定时会使用到多少个变量,确定时需要注意m应小于M。
③应用自助法有放回地随机抽取k个新的自助样本集,并由此构建k棵决策树,每次未被抽到的样本组成了k个袋外数据(out-of-bag,OOB)
④每个自助样本集生长为单棵决策树。在数的每个节点处从M个特征中随机挑选m个特征(m小于M),按照节点不纯度最小的原则从这m个特征中选出一个特征进行分支生长。这棵决策树进行充分生长,使每个节点的不纯度达到最小,不进行通常的剪枝操作。
⑤根据生成的多个决策树分类器对需要进行预测的数据进行预测,根据每棵决策树的投票结果取票数最高的一个类别。
在随机森林的构建过程中,自助样本集用于每一个树分类器的形成,每次抽样生成的OOB被用来预测分类的正确率,对每次预测结果进行汇总得到错误率的OOB估计,然后评估组合分类的正确率。此外,在随机森林中,生成每一棵决策树时,所应用的自助样本集从原始的训练样本集中随机选取,每一棵决策树所应用的变量也是从所有变量M中随机选取,随机森林通过在每个节点处随机选择特征进行分支,最小化了各棵决策树之间的相关性,提高了分类精确度。因为每棵树的生长很快,所以随机森林的分类速度很快,并且很容易实现并行化。这也是随机森林的一个非常重要的优点和特点。
随机森林分类性能的主要因素如下:
①森林中单棵树的分类强度——在随机森林中,每一棵决策树的分类强度越大,即每棵树枝叶越茂盛,则整体随机森林的分类性能越好;
②森林中树之间的相关度——在随机森林中,树与树之间的相关度越大,即树与树之间的枝叶相互穿插越多,则随机森林的分类性能越差。
随机森林的两个重要参数如下:
①树节点预选的变量个数;
②随机森林中树的个数。
以上两个参数是在构建随机森林模型过程中的两个重要参数,这也是决定随机森林预测能力的两个重要参数,其中第一个参数决定了单棵决策树的情况,而第二个参数决定了整片随机森林的总体规模。换言之,上述两个参数分别从随机森林的微观和宏观层面上决定了整片随机森林的构造。
有关工业智能技术与应用的文章
分段计算法就是把时间分成一个个小段,在每一个小段时间内,把变加速运动近似地看成是等加速运动来解。为了提高计算精度,我们取时间段初和时间段末的加速度的平均值,作为计算每个时间段速度增量的加速度。图15-5切除故障瞬间的过剩功率图15-6转子摇摆曲线1—稳定;2—不稳定分段计算法的计算精度与所选用的时间段的长短(即步长)有关,Δt太大,固然精度下降;Δt过小,除增加计算量外,也会增加计算过程中的累计误差。......
2023-06-15
表4.13数据量化示例本研究共统计了5618起交通事故样本,随机选取全部样本的80%作为训练样本,20%作为测试样本。随机森林模型中有两类需要调整的参数,两类参数分别来自装袋算法框架和分类回归树。图4.6随机森林模型指标权重为了验证模型的预测性能和泛化性能,利用测试集进行预测,准确率为81.32%,测试集的拟合程度如图4.7所示。......
2023-06-15
另外,随机森林法可以评价各种指标的重要程度。装袋算法通过自助抽样法有效地提高了随机森林算法的准确度。Breiman在1984年提出的分类回归树是一种不稳定的学习算法,因此CART方法与装袋算法结合就形成了随机森林算法,可以提高模型预测准确率。随机森林模型中某一特征的重要性,是所有决策树得到的该特征重要性的平均值。......
2023-06-15
为了提高和保证加工精度,可以通过采取一定的工艺措施和其他方法来减少或消除这些误差对加工精度的影响。图3-18 刀具转位误差的转移5.就地加工法有些零件或产品的精度在加工和装配中难以达到或者根本不可能,如果采用就地加工法,就有可能很快地解决看似非常困难的精度问题。......
2023-06-25
保证和提高加工精度的方法,大致可概括为以下几种:减小原始误差法、补偿原始误差法、转移原始误差法、均分原始误差法、均化原始误差法、“就地加工”法。当原始误差是负值时人为误差就取正值,反之则取负值,并尽量使两者大小相等;或者利用一种原始误差去抵消另一种原始误差,也是尽量使两者大小相等、方向相反,从而达到减少加工误差、提高加工精度的目的。就地加工法在机械零件加工中常用来作为保证零件加工精度的有效措施。......
2023-06-29
原则上,每个自动化工序都有不同的精度要求。在这种情况下,工件位置不再精确地集中在手指之间,这可能导致连接操作中的精度问题。由于对抓取或放置精度的要求如此之高,因此应相应地调整一般条件,以避免此类错误。图3.117用公差角度来审视系统对于抓取或者放置来说十分重要摄像机测量误差可能具有不同的性质。当涉及在装配过程中对工件的纯搬运时,或如图3.117所示,当相当多的因素影响精度时,这些考虑尤其重要。......
2023-06-15
齿轮坯的基准表面的精度对齿轮的加工精度和安装精度的影响很大。用控制齿轮坯精度来保证和提高齿轮的加工精度是一项有效的技术措施。有关齿轮坯精度参数的数值,只有明确其特定的轴线时才有意义。表7-5齿轮坯尺寸公差表7-6齿轮坯径向和轴向圆跳动公差齿轮的加工、检验和装配,应尽量采取基准一致的原则。表7-8齿面表面粗糙度允许值注:齿轮的三项精度等级不同时,按最高的精度等级确定。......
2023-06-15
卷取机跑偏EPC控制系统的工作目的就是要保证钢带卷齐的精度。按照现有的文献资料和设计手册中的介绍,钢带卷取时,钢带位移的偏移xi存在一个跑偏频率ωp,只有当EPC系统的频宽ωb大于ωp时,系统才能及时纠偏,这样才能保证卷齐精度。然而,该参数的范围太大,据此进行的设计不够准确,为此,又实测了机组的跑偏频率ωp和纠偏速度vp。......
2023-06-15
相关推荐