avatar avatar 我的文献 带最大熵修正的行动者评论家算法 单位 苏州大学计算机科学与技术学院; 苏州大学江苏省计算机信息处理技术重点实验室; 吉林大学符号计算与知识工程教育部重点实验室; 软件新技术与产业化协同创新中心 期刊 计算机学报 时间 关键词 强化学习; 深度学习; 行动者评论家算法; 最大熵; 策略梯度
摘要
在行动者评论家算法中,策略梯度通常使用最大熵正则项提高行动策略的随机性以保证探索。策略的随机使Agent能够遍历所有动作,但是会造成值函数的低估并影响算法的收敛速度与稳定性。针对策略梯度中最大熵正则项带来的低估问题,提出最大熵修正(Maximum-Entropy Correction,MEC)算法。该算法有两个特点:(1)利用状态值函数与策略函数构造一种状态动作值函数的估计,构造的状态动作值函数符合真实值函数的分布;(2)将贝尔曼最优方程与构造的状态动作值函数结合作为MEC算法的目标函数。通过使用新的目标函数MEC算法可以解决使用最大熵正则项带来的性能下降与不稳定。为了验证算法的有效性,将该算法与近似策略优化算法以及优势行动者评论家算法在Atari 2600游戏平台进行比较实验。实验结果表明,MEC在改进性能的同时提高了算法的稳定性。
下载 浏览 cnki {{liketext}}
©2020 - iData {{ message }} 关闭