avatar avatar 我的文献 基于二阶TD误差的双网络DQN算法 作者 陈建平; 周鑫; 傅启明; 高振; 付保川; 吴宏杰 单位 苏州科技大学电子与信息工程学院; 苏州科技大学江苏省建筑智慧节能重点实验室 期刊 计算机工程 时间 关键词 MDP; 深度强化学习; DQN; 二阶TD误差; 梯度下降 基金 国家自然科学基金项目(No.61772357,No.61750110519,No.61772355,No.61702055,No.61672371,No.61602334); 江苏省重点研发计划项目(No.BE2017663)
摘要
针对DQN算法由于过估计所导致的收敛稳定性差的问题,提出一种基于二阶TD误差的双网络DQN算法。基于传统的TD误差,提出N阶TD误差的概念,并在此基础上,构造一种新的基于二阶TD误差的值函数更新公式,以提高值函数估计的稳定性。同时,结合DQN算法,提出一种基于二阶TD误差的双网络模型,构造两个同构的值函数网络,分别用于表示先后两轮的值函数,协同更新双网络参数,以提高DQN算法中值函数估计的稳定性。基于Open AI Gym的实验平台,将所提的算法用于Mountain Car和Cart Pole问题,实验结果表明,相对于经典的DQN算法,所提算法具有更好的收敛稳定性。
下载 浏览 cnki {{liketext}}
©2020 - iData {{ message }} 关闭