首页 理论教育探索深度学习的自学能力与应用

探索深度学习的自学能力与应用

【摘要】:直到深度学习出现,方才打破这一困境。深度学习指机器根据某些基本原理自主进行训练,最终具备自学能力。深度学习源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是解决以上问题最好的方案之一。深度学习技术的成功依赖于两个关键因素:第一,计算速度得到大幅提升。

还记得20世纪七八十年代人工智能跌入低谷的遭遇吗?正是深度学习的出现力挽狂澜,让人们重新燃起对人工智能的热情。深度学习目前在计算机视觉、语音识别和自然语言处理等领域取得空前成功,并且直接促成今天如此繁荣的局面。

■深度学习是机器学习的一个子集,机器学习又是人工智能(AI)的一个子集

人工智能的概念刚刚提出之际,科学家投入空前高涨而盲目的热情。1967年,麻省理工学院的马文·明斯基(又一位人工智能的父亲)曾宣称,人工智能的所有问题将在一代人的时间内被彻底解决。然而一代又一代的人出生、老去,人工智能的问题还跟哈姆雷特的生死抉择一样迷惘。对于机器来说,学习新事物是一件“头大”的事情。编写计算机程序需要把任务用非常规范和严谨的格式写成一条条具体的规则,但世界上大部分知识并非如此刻板,电脑很难理解对于人类轻而易举的任务,比如理解语音、图像、文字或是驾驶汽车。直到深度学习出现,方才打破这一困境。1959年美国科学家塞缪尔设计了一个下棋程序,这个程序具有学习能力,可以在不断的对弈中改善棋艺。4年后,程序战胜了设计者本人,又过了3年,战胜了一位保持8年之久的常胜冠军。是不是看上去有些眼熟?AlphaGo也是基于深度学习研发的人工智能,这真是一种绝妙的传承。

深度学习指机器根据某些基本原理自主进行训练,最终具备自学能力。深度学习源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。

要搞清楚深度学习,首先要了解一下神经网络技术。这项技术并非新近兴起,20世纪五六十年代已经初步建立,当时叫“感知机”,拥有输入层、输出层和隐含层。输入的特征向量通过隐含层变换达到输出层,在输出层得到分类结果。最开始的感知机只有单层感知系统,后来逐渐发明出多层感知机。多层感知机解决了之前无法模拟异或逻辑的缺陷,同时更多的层数也让网络更加能够刻画现实世界中的复杂情形。这跟我们人类大脑类似,通过输入和输出进行信息交流。当信息作为输入传入神经元的时候,神经元会分配给每一个信息一个相关权重,然后将输入的信息乘以相应的权重,就是该信息的输入。在开始的时候,神经元会初始化每个信息的权重,之后根据相应的反馈和模型训练来更新每个信息的权重。被赋予高权重的信息是被神经元认为相比于重要的信息更加重要的信息,而权重为0的信息则会被认为是对神经元活动影响微乎其微的信息。

■单层感知机的示意图。实际上这就是输入信息,获得分类结果的过程

人工智能之所以在当时跌入低谷,部分原因是科学家普遍认为让一个神经网络开发出智能几乎是不可能的,很难找到可以高效地优化网络以提升其性能的学习方法。“最优化理论”是数学的一门分支,即尝试找到能达到一个给定数学目标的参数组合,到了神经网络,这些参数被称作“突触权重”,反映信号从一个神经元通向另一个神经元的强度。深度学习的最终目标是做出准确的预测,也就是将误差控制在最小范围,当参数与目标之间的关系足够简单时,可以逐步对参数进行调整,直到接近最优解。然而,神经网络的训练过程需要另一种“非凸优化”的过程,学习算法在运算过程中可能会陷入所谓的“局部最小点”。故此,轻微调整参数值就无法减小预测误差,进而无法提升模型性能。深度学习是解决以上问题最好的方案之一。

深度学习技术的成功依赖于两个关键因素:第一,计算速度得到大幅提升。科学家借用图形处理器,使计算速度提升了10倍,这为训练大规模网络争取到时间。第二,海量带标记数据集的出现。这些数据集内的所有样例都配有正确的标记,便于人们辨识。