首页 理论教育深度学习模型与时间同步方案优化探讨

深度学习模型与时间同步方案优化探讨

【摘要】:Deep-TSR方法中的控制器使用收集的数据初始化Q学习模型。图6-6Deep-TSR的主要流程Deep-TSR中的DQN通过深度强化学习算法在自学习中进行训练。DQN的初始输入包括3个特征平面的二维矩阵。获得学习结果后,我们可以部署时间同步方案。然后,控制器通过交换节点将同步业务请求发送给Deep-TSR学习模块。同时,学习模块通过1588协议为即将到来的服务创建时间戳,并且转发同步模块将其计算到下一个节点。最后,学习模块根据前一时段的数据更新路由信息。

图6-6描述了我们提出的Deep-TSR方案。我们的目标是在传输过程中尽量减少非对称延迟对同步信号的影响,并提高同步精度。Deep-TSR方法中的控制器使用收集的数据初始化Q学习模型。然后,Deep-TSR调整DeepQ网络的参数,以最小化节点集中的动作值的估计误差。接下来,控制器可以强制同步信号自动找到具有最小链路的不对称时延链路。然后,控制器根据学习结果计算最佳发送时间和同步信号的路由。最后,我们可以基于最佳路由部署同步方案。

图6-6 Deep-TSR的主要流程

Deep-TSR中的DQN通过深度强化学习算法在自学习中进行训练。本章参考文献[10]中展现了DQN的技术细节。Deep-TSR使用一种非常简单的路由搜索策略,可在未来的前传中进行部署。在搜索算法中,网络中的每个节点都包含所有可能操作的链接。另外,每个链接都存储一组统计数据,包括访问次数N(s,a)、总动作值W(s,a)、平均动作值Q(s,a)和链接搜索概率P(S,A)。DQN的初始输入包括3个特征平面的二维矩阵。第一个特征平面指示当前链接的状态,包括双向或单向链接。第二个特征平面表示链接的相应特征。在机器学习算法验证之后,以下参数具有最高的相关度:长度、折射率、环境温度、材料色散波导色散。第三个特征平面代表链路类型,包括光路和无线链路。

我们采用DQN路由搜索策略。每次仿真都从初始状态开始并迭代地选择路由,直到找到具有最小链路不对称性的链路。该最佳链接由网络扩展来生成先验概率并进行评估[11]

获得学习结果后,我们可以部署时间同步方案。Deep-TSR算法的主要过程如图6-7所示。控制器获取每个设备的同步服务请求信息和网络资源状态。然后,控制器通过交换节点将同步业务请求发送给Deep-TSR学习模块。同时,学习模块通过1588协议为即将到来的服务创建时间戳,并且转发同步模块将其计算到下一个节点。学习模块根据服务请求和周期的网络状态记录最小非对称延迟路由。根据学习结果决定进行最优路由的次数,控制器将服务请求信息发送给主时钟。之后,时间同步模块计算主时钟和从时钟之间的时间误差。当时间误差随着主时钟的时钟同步保持稳定时,为同步服务分配资源。最后,学习模块根据前一时段的数据更新路由信息。

图6-7 时间同步方案的伪代码