首页 理论教育深度信念网络:理解和应用

深度信念网络:理解和应用

【摘要】:对于在深度神经网络应用传统的BP算法的时候,DBNs遇到了以下问题:①需要为训练提供一个有标签的样本集;②学习过程较慢;③不适当的参数选择会导致学习收敛于局部最优解。图7-4深度信念网络拓扑图首先,先不考虑最顶构成一个联想记忆的两层,一个DBNs的连接是通过自顶向下的生成权值来指导确定的,RBM就像一个建筑块一样,相比传统和深度分层的sigmoid信念网络,它能易于连接权值的学习。这个性能会比单纯的BP算法训练的网络好。

深度信念网络(deep belief networks,DBNs)是一个概率生成模型,与传统的判别模型的神经网络相对,生成模型是建立一个观察数据和标签之间的联合分布,对P(Observation|Label)和P(Label|Observation)都做了评估,而判别模型仅仅评估了后者,也就是P(Label|Observation)。对于在深度神经网络应用传统的BP算法的时候,DBNs遇到了以下问题:

①需要为训练提供一个有标签的样本集;

②学习过程较慢;

③不适当的参数选择会导致学习收敛于局部最优解。

DBNs由多个RBM层组成,一个典型的神经网络类型如图7-4所示。这些网络被“限制”为一个可视层和一个隐层,层间存在连接,但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

图7-4 深度信念网络拓扑图

首先,先不考虑最顶构成一个联想记忆(associative memory)的两层,一个DBNs的连接是通过自顶向下的生成权值来指导确定的,RBM就像一个建筑块一样,相比传统和深度分层的sigmoid信念网络,它能易于连接权值的学习。

最开始的时候,通过一个非监督贪婪逐层方法去预训练获得生成模型的权值,非监督贪婪逐层方法被Hinton证明是有效的,并被其称为对比分歧(contrastive divergence)。

在这个训练阶段,在可视层会产生一个向量v,通过它将值传递到隐层。反过来,可视层的输入会被随机的选择,以尝试去重构原始的输入信号。最后,这些新的可视的神经元激活单元将前向传递重构隐层激活单元,获得h。在训练过程中,首先将可视向量值映射给隐单元,然后可视单元由隐层单元重建,这些新可视单元再次映射给隐单元,这样就获取新的隐单元,执行这种反复步骤叫做吉布斯(Gibbs)采样。这些后退和前进的步骤就是我们熟悉的Gibbs采样,而隐层激活单元和可视层输入之间的相关性差别就作为权值更新的主要依据。

训练时间会显著减少,因为只需要单个步骤就可以接近最大似然学习。增加进网络的每一层都会改进训练数据的对数概率,这可以理解为越来越接近能量的真实表达。这个有意义的拓展和无标签数据的使用,是任何一个深度学习应用的决定性的因素。

在DBN框架最高两层,权值被连接到一起,这样更低层的输出将会提供一个参考的线索或者关联给顶层,这样顶层就会将其联系到它的记忆内容。最后得到的就是判别性能。

在预训练后,DBN可以通过利用带标签数据用BP算法去对判别性能做调整。在这里,一个标签集将被附加到顶层(推广联想记忆),通过一个自下向上的,学习到的识别权值获得一个网络的分类面。这个性能会比单纯的BP算法训练的网络好。这可以很直观地解释,DBNs的BP算法只需要对权值参数空间进行一个局部的搜索,这相比前向神经网络来说,训练是要快的,而且收敛的时间也少。