首页 理论教育基于对策论的多Agent协商机制的构建

基于对策论的多Agent协商机制的构建

【摘要】:基于对策论的多Agent 协商就是研究行为上相互影响、 利益有所冲突的单Agent 之间如何优化决策使各个Agent 利益最大化的协商过程。“阈值保证”有效地减少了协商循环次数, 并且对Agent 提供了阈值保护, 确保某些可能导致较差结果的策略不被采用, 而且协商结果是在阈值定义范围之内的。而“触发补偿”机制结合了生产调度的特点, 当Agent 低于阈值范围时, 及时进行原材料, 在制品或半成品的补偿, 保证协商顺利进行。

多个Agent 协商的目的是为了共同完成一定的任务, 并且在完成任务的过程中, 协调各自的利益。 基于对策论的多Agent 协商就是研究行为上相互影响、 利益有所冲突的单Agent 之间如何优化决策使各个Agent 利益最大化的协商过程。 根据半导体封装测试生产性质, 本节建立了基于对策论的调度与订单协商机制, 如图5-4 所示, 具体协商过程描述如下:

(1)进行系统初始化, 对六元组内的所有要素进行信息初始化更新, 结合生产调度和订单的实际情况, 录入“阈值信息”, 确保协商过程是在阈值要求范围内进行。

(2)任务发起者(一般是半成品仓库或者订单智能体)提出一个“建议”到Ag 集合内。

(3)形成二人非零和局势。

(4)接收任务的AgA, AgB 将任务与自己当前状态给出策略集S(A), S(B)。

(5)参与协商的AgA, AgB 根据策略集S(A), S(B), 并计算相应的赢得函数U(A), U(B)。

图5-4 基于对策论的多智能体协商机制

(6)形成策略矩阵[U(A), U(B)]。

(7) AgA 或AgB 向另外一方根据策略集提出请求。

(8)接收方进行赢得值评估, 接收或者拒绝并提出反方请求。

(7)、 (8)循环进行, 直到得到该局的纳什平衡策略集。

(9)输出策略集和协商结果, 协商结束。

在该协商机制中, 引入了“阈值保证”和“触发补偿”机制。“阈值保证”有效地减少了协商循环次数, 并且对Agent 提供了阈值保护, 确保某些可能导致较差结果的策略不被采用, 而且协商结果是在阈值定义范围之内的。 而“触发补偿”机制结合了生产调度的特点, 当Agent 低于阈值范围时, 及时进行原材料, 在制品或半成品的补偿, 保证协商顺利进行。