首页 新闻 会员 周边

DTDE架构的多智能体AC强化学习训练结果不收敛

0
悬赏园豆:200 [已解决问题] 解决于 2026-04-23 16:19

问题:最近在复现一篇完全去中心化的多智能体AC强化学习的论文,遇到的问题就是,原文Actor使用的是SGD优化器,Critic使用的是AMSGrad优化器。目前的情况是跑了MPE的simple spread环境,当我Actor使用Adma或者AMSGrad优化器时奖励可以勉强收敛,但是梯度一直向上走且不收敛。当我按照原文的SGD进行复现时两者都不能收敛。

智能体通信(用ai总结了一下主要是有共识和奖励噪声):
在通信与协作方面,该算法运行在一个去中心化的多智能体网络中,每个智能体只能获取自身的局部信息,并通过与网络中的其他智能体交互来优化累积奖励 。算法没有中心化的协调节点,而是完全依赖智能体与其邻居节点之间的局部通信来实现全局协同 。具体而言,智能体间的通信协作主要体现在奖励共享和参数同步两个维度。在奖励共享维度,由于直接计算全局平均奖励需要收集其他智能体的局部奖励,这会显著增加暴露局部敏感信息的风险 。为了保护智能体的局部信息,算法设计了一种隐私保护机制,要求每个智能体在共享局部奖励之前先人为添加高斯噪声 。随后,每个智能体基于一个双随机通信矩阵 ,与其邻居节点就这些带有噪声的奖励进行多次去中心化的局部平均 。通过这种多步通信方式,智能体最终能够在本地安全地获得关于全局平均奖励的有效估计值 。在参数同步维度,也就是在策略评估阶段,为了降低不同智能体之间的共识误差,使得大家对状态价值的评估趋于一致,所有智能体都需要进行局部平均计算 。在这个过程中,每个智能体会与其邻居智能体交换局部的评论员网络参数,并进行加权融合 。综上所述,该算法的协作机制完全基于图网络拓扑下的局部信息交换,通过注入高斯噪声来保护隐私,并利用多次局部加权平均计算来实现奖励信号与网络参数的全局共识。

这是Actor采用SGD的梯度和奖励结果:

这是Actor采用AMSGrad的实验结果:

zz憨憨兽的主页 zz憨憨兽 | 初学一级 | 园豆:24
提问于:2026-03-27 17:27
< >
分享
最佳答案
0

自己论文参考的是这两篇文献,梯度问题目前已经解决,大概就是没看清人家用的线性逼近器,然后自己写了一个网络,虽然还是不太清楚具体的原理,但是好歹解决了一些问题。感谢大家的帮助
《FINITE-TIME CONVERGENCE AND SAMPLE COMPLEXITY OF MULTI-AGENT ACTOR-CRITIC REINFORCEMENT LEARNING WITH AVERAGE REWARD》
《Sample and Communication-Efficient Decentralized Actor-Critic Algorithms with Finite-Time Analysis》

zz憨憨兽 | 初学一级 |园豆:24 | 2026-04-23 16:18
其他回答(3)
0

这种去中心化架构本身就比中心化训练更难调参,优化器选择要匹配噪声特性。从你的图看,AMSGrad 的奖励曲线已经有收敛趋势,只是梯度不稳定,所以重点应该在梯度平滑和学习率调度上。

收获园豆:100
loveme2 | 园豆:164 (初学一级) | 2026-03-27 18:15

所以说SGD很难在这种架构上跑出来吗?因为需要复现的实验理论说明是使用SGD,但是调试很久发现没有好的结果奖励一直不收敛。

支持(0) 反对(0) zz憨憨兽 | 园豆:24 (初学一级) | 2026-03-27 18:24

@zz憨憨兽: 先尝试 SGD + momentum=0.9,如果能收敛,就称之为"SGD with momentum"

支持(0) 反对(0) loveme2 | 园豆:164 (初学一级) | 2026-03-28 13:10
0

原始论文是?

收获园豆:50
Angry_Panda | 园豆:526 (小虾三级) | 2026-04-04 12:22

Sample and Communication-Efficient Decentralized Actor-Critic Algorithms with Finite-Time Analysis

支持(0) 反对(0) zz憨憨兽 | 园豆:24 (初学一级) | 2026-04-23 16:14
0

有没有可能是通讯问题,我猜可能你的是全时全量的相互通信,原文可能是聊完你的聊你的。

收获园豆:50
王振耀 | 园豆:251 (菜鸟二级) | 2026-04-11 10:51

大概率是代码写错了,因为人家用的线性逼近,我写的网络,后来改写线性逼近器后就能收敛了

支持(0) 反对(0) zz憨憨兽 | 园豆:24 (初学一级) | 2026-04-23 16:15
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册