avatar avatar 我的文献 多Agent深度强化学习综述 作者 梁星星; 冯旸赫; 马扬; 程光权; 黄金才; 王琦; 周玉珍; 刘忠 单位 国防科技大学系统工程学院 期刊 自动化学报 时间 关键词 多agent系统; 强化学习; 深度强化学习; 通用人工智能
摘要
近些年来,深度强化学习在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力,深度强化学习已经成为实现人工智能颇有前景的学习范式.然而,深度强化学习在多agent系统的研究与应用中,仍存在诸多困难和挑战,以StarCraft II为代表的部分观测环境下的多agent学习仍然很难达到理想效果.在本文中,我们简要介绍了深度Q网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时,从多agent深度强化学习中通信过程的角度对现有的多agent深度强化学习算法进行归纳,将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策三种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多agent深度强化学习中的一些关键问题,并分析了多agent深度强化学习的研究热点和发展前景.
下载 浏览 cnki {{liketext}}
©2019 - iData {{ message }} 关闭