简介概要

基于蒙特卡洛Q值函数的多智能体决策方法

来源期刊:控制与决策2020年第3期

论文作者:张健 潘耀宗 杨海涛 孙舒 赵洪利

文章页码:637 - 644

关键词:多智能体决策;蒙特卡洛;值函数;马尔可夫决策;

摘    要:多智能体决策问题是人工智能领域的研究热点.与单智能体决策问题相比,多智能体决策的策略搜索空间更大.分布式局部感知马尔可夫决策过程(Dec-POMDPs)建立了不确定环境下多智能体决策问题的通用模型,自提出以来受到很大关注,但是求解Dec-POMDPs问题计算复杂度高,内存占用大.基于此,提出一种新的Q值函数表示—–蒙特卡洛Q值函数(QMC),并从理论上证明QMC是最优Q值函数Q?的上界,能够保证启发式搜索到最优解;运用自适应抽样方法,平衡收敛准确性和求解时间的关系;结合启发式搜索的精确性和蒙特卡洛方法随机抽样的一般性,提出一种基于QMC的蒙特卡洛聚类/扩展算法(CEMC), CEMC整合了Q值函数求解和策略搜索过程,避免保存所有值函数,只按需求解.实验结果表明, CEMC在时间和内存占用上超过目前性能最好的使用紧凑Q值函数的启发式方法.

详情信息展示

基于蒙特卡洛Q值函数的多智能体决策方法

张健,潘耀宗,杨海涛,孙舒,赵洪利

中国人民解放军战略支援部队航天工程大学中国人民解放军63628部队中国人民解放军63919部队

摘 要:多智能体决策问题是人工智能领域的研究热点.与单智能体决策问题相比,多智能体决策的策略搜索空间更大.分布式局部感知马尔可夫决策过程(Dec-POMDPs)建立了不确定环境下多智能体决策问题的通用模型,自提出以来受到很大关注,但是求解Dec-POMDPs问题计算复杂度高,内存占用大.基于此,提出一种新的Q值函数表示—–蒙特卡洛Q值函数(QMC),并从理论上证明QMC是最优Q值函数Q?的上界,能够保证启发式搜索到最优解;运用自适应抽样方法,平衡收敛准确性和求解时间的关系;结合启发式搜索的精确性和蒙特卡洛方法随机抽样的一般性,提出一种基于QMC的蒙特卡洛聚类/扩展算法(CEMC), CEMC整合了Q值函数求解和策略搜索过程,避免保存所有值函数,只按需求解.实验结果表明, CEMC在时间和内存占用上超过目前性能最好的使用紧凑Q值函数的启发式方法.

关键词:多智能体决策;蒙特卡洛;值函数;马尔可夫决策;

<上一页 1 下一页 >

有色金属在线官网  |   会议  |   在线投稿  |   购买纸书  |   科技图书馆

中南大学出版社 技术支持 版权声明   电话:0731-88830515 88830516   传真:0731-88710482   Email:administrator@cnnmol.com

互联网出版许可证:(署)网出证(京)字第342号   京ICP备17050991号-6      京公网安备11010802042557号