首页 理论教育机器学习中的分类算法

机器学习中的分类算法

【摘要】:机器学习一般根据处理的数据是否存在人为标注可分为监督学习和无监督学习。因此,监督学习的根本目标是训练机器学习的泛化能力。总之,机器学习就是计算机在算法的指导下,能够自动学习大量输入数据样本的数据结构和内在规律,给机器赋予一定的智慧,从而对新样本进行智能识别,甚至实现对未来的预测。机器学习的一般流程如图6-1所示。

机器学习一般根据处理的数据是否存在人为标注可分为监督学习和无监督学习。监督学习用有标签的数据作为最终学习目标,通常学习效果好,但获取有标签数据的代价是昂贵的;无监督学习相当于自学习或自助式学习,便于利用更多的数据,同时可能会发现数据中存在更多模式的先验知识有时会超过手工标注的模式信息,但学习效率较低。两者的共性是通过建立数学模型为最优化问题进行求解,通常没有完美的解法。监督学习的数据集包括初始训练数据和人为标注目标,希望根据标注特征从训练集数据中学习到对象划分的规则,并应用此规则在测试集数据中预测结果,输出有标记的学习方式。因此,监督学习的根本目标是训练机器学习的泛化能力。监督学习的典型算法有:逻辑回归、多层感知机、卷积神经网络等;典型应用有:回归分析、任务分类等。无监督学习,用于处理未被分类标记的样本集数据并且事先不需要进行训练,希望通过学习寻求数据间的内在模式和统计规律,从而获得样本数据的结构特征,因此,无监督学习的根本目标是在学习过程中根据相似性原理进行区分。无监督学习更近似于人类的学习方式,被Andrew Ng誉为:人工智能最有价值的地方。无监督学习的典型算法有自动编码器、受限玻尔兹曼机、深度置信网络等;典型应用有:聚类和异常检测等。总之,机器学习就是计算机在算法的指导下,能够自动学习大量输入数据样本的数据结构和内在规律,给机器赋予一定的智慧,从而对新样本进行智能识别,甚至实现对未来的预测。机器学习的一般流程如图6-1所示。

图6-1 机器学习流程图

从当前研究的发展趋势看,机器学习今后将有如下几个热点的研究方向:从人类自身出发找出大脑本身生物学习机制,通过严格数学化应用于机器学习;在已有的人工智能方法的基础上不断优化发展和改良现有学习算法,同时展开新的研究算法的开发工作;令众多的机器学习算法走出“象牙塔”,建立实用的机器学习的算法应用系统,特别是在互联网领域开展多种学习方法集成化的研究;多种机器学习算法的同步协调使用,利用多种算法是优势规避其中的不足,改善学习系统性能。