首页 新闻 会员 周边

DTDE架构的多智能体AC强化学习训练结果不收敛

0
悬赏园豆:200 [待解决问题]

问题:最近在复现一篇完全去中心化的多智能体AC强化学习的论文,遇到的问题就是,原文Actor使用的是SGD优化器,Critic使用的是AMSGrad优化器。目前的情况是跑了MPE的simple spread环境,当我Actor使用Adma或者AMSGrad优化器时奖励可以勉强收敛,但是梯度一直向上走且不收敛。当我按照原文的SGD进行复现时两者都不能收敛。

智能体通信(用ai总结了一下主要是有共识和奖励噪声):
在通信与协作方面,该算法运行在一个去中心化的多智能体网络中,每个智能体只能获取自身的局部信息,并通过与网络中的其他智能体交互来优化累积奖励 。算法没有中心化的协调节点,而是完全依赖智能体与其邻居节点之间的局部通信来实现全局协同 。具体而言,智能体间的通信协作主要体现在奖励共享和参数同步两个维度。在奖励共享维度,由于直接计算全局平均奖励需要收集其他智能体的局部奖励,这会显著增加暴露局部敏感信息的风险 。为了保护智能体的局部信息,算法设计了一种隐私保护机制,要求每个智能体在共享局部奖励之前先人为添加高斯噪声 。随后,每个智能体基于一个双随机通信矩阵 ,与其邻居节点就这些带有噪声的奖励进行多次去中心化的局部平均 。通过这种多步通信方式,智能体最终能够在本地安全地获得关于全局平均奖励的有效估计值 。在参数同步维度,也就是在策略评估阶段,为了降低不同智能体之间的共识误差,使得大家对状态价值的评估趋于一致,所有智能体都需要进行局部平均计算 。在这个过程中,每个智能体会与其邻居智能体交换局部的评论员网络参数,并进行加权融合 。综上所述,该算法的协作机制完全基于图网络拓扑下的局部信息交换,通过注入高斯噪声来保护隐私,并利用多次局部加权平均计算来实现奖励信号与网络参数的全局共识。

这是Actor采用SGD的梯度和奖励结果:

这是Actor采用AMSGrad的实验结果:

zz憨憨兽的主页 zz憨憨兽 | 初学一级 | 园豆:2
提问于:2026-03-27 17:27
< >
分享
所有回答(1)
0

这种去中心化架构本身就比中心化训练更难调参,优化器选择要匹配噪声特性。从你的图看,AMSGrad 的奖励曲线已经有收敛趋势,只是梯度不稳定,所以重点应该在梯度平滑和学习率调度上。

loveme2 | 园豆:37 (初学一级) | 2026-03-27 18:15

所以说SGD很难在这种架构上跑出来吗?因为需要复现的实验理论说明是使用SGD,但是调试很久发现没有好的结果奖励一直不收敛。

支持(0) 反对(0) zz憨憨兽 | 园豆:2 (初学一级) | 2026-03-27 18:24

@zz憨憨兽: 先尝试 SGD + momentum=0.9,如果能收敛,就称之为"SGD with momentum"

支持(0) 反对(0) loveme2 | 园豆:37 (初学一级) | 2026-03-28 13:10
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册