收藏本站
收藏 | 投稿 | 论文排版

一种基于视觉注意力机制的深度循环Q网络模型

刘全  翟建伟  钟珊  章宗长  周倩  章鹏  
【摘要】:由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏这类趋于真实环境的复杂问题时表现出了和人类玩家相媲美的水平.然而,当存在有延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,深度Q网络的表现就会急剧下降.这说明深度Q网络并不擅长解决战略性深度强化学习任务.针对此问题,文中使用带视觉注意力机制的循环神经网络改进了传统的深度Q网络模型,提出了一种较为完善的深度强化学习模型.新模型的关键思想有两点:一是使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息.这使得Agent能够及时使用有延迟的反馈奖赏来正确地指导下一步的动作选择;二是通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,从而使得Agent能够更加高效地学习近似最优策略.该文通过选取一些经典的Atari 2600战略性游戏作为实验对象来评估新模型的有效性.实验结果表明,与传统的深度强化学习模型相比,新模型在一些战略性任务上具有很好的性能表现和较高的稳定性.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 黄威,林丽闽,宋亮;基于第三方整合的商业网络模型[J];合肥工业大学学报(自然科学版);2003年S1期
2 韦洛霞;耦合生长网络模型的模拟[J];河南大学学报(自然科学版);2004年02期
3 郝玉;叶世伟;;基于软竞争机制的对传网络模型及应用[J];计算机仿真;2006年03期
4 马费成;王晓光;;知识转移的社会网络模型研究[J];江西社会科学;2006年07期
5 孟凡玲;范向军;;水电工程监理评标BP网络模型研究[J];人民黄河;2007年07期
6 李文林;苗静;刘振红;;含时滞的复杂动态网络模型的指数同步[J];河南师范大学学报(自然科学版);2009年05期
7 鲁智勇;张权;张希;唐朝京;;等效分组级联BP网络模型及其应用[J];电子学报;2010年06期
8 江琼琴;宋文广;;一种改进的BP网络模型在唇裂手术预测分析中的应用[J];池州学院学报;2012年06期
9 殷洪义 ,荣明宗 ,周昭南 ,周曼殊;网络模型的统一表征[J];国防科技大学学报;1981年02期
10 戴显砥,戴郁;生产与存贮问题的网络模型[J];基建优化;1995年01期
11 文华;BP网络模型在时序预测中的应用[J];武汉交通科技大学学报;1999年06期
12 李勇,孙艳萍,孙海波,宋景东;用于故障预测的BP网络模型及改进[J];东北电力学院学报;1999年01期
13 金峤,方帅,阎石,李宏男;BP网络模型的改进方法综述[J];沈阳建筑工程学院学报(自然科学版);2001年03期
14 宣士斌;有限离散属性网络模型及分类搜索方法[J];广西民族学院学报(自然科学版);2002年03期
15 李一宁;汪小帆;;复杂网络上的一种映射网络模型[J];系统仿真学报;2007年11期
16 崔丽群;;BP网络模型的优化及仿真[J];电脑知识与技术;2009年19期
17 刘桂玲;陶士珩;朱珊娜;李晨;;葡萄病害诊断BP网络模型关键问题研究[J];农机化研究;2010年02期
18 周永权;赵斌;;泛函网络模型及应用研究综述[J];电子科技大学学报;2010年06期
19 张子贤;刘家春;袁德明;李瑞森;吴兴国;;承压水漏斗动态研究的BP网络模型及其研制中的若干问题[J];数学的实践与认识;2011年15期
20 常乐;陆熙;李佳钰;;BP网络模型对人脸朝向的识别[J];计算机与现代化;2012年03期
中国重要会议论文全文数据库 前10条
1 张书超;那日萨;;具有老化机制的阿波罗网络模型[A];2006全国复杂网络学术会议论文集[C];2006年
2 王仲君;黄红球;;一个具有确定度分布的有向网络模型[A];2006全国复杂网络学术会议论文集[C];2006年
3 李季明;张宁;;具有随机性的确定性网络模型[A];2006全国复杂网络学术会议论文集[C];2006年
4 秦绍萌;陈勇;;生态系统宏观演化的网络模型[A];2006全国复杂网络学术会议论文集[C];2006年
5 骆继明;郭新军;;分布复杂机电系统网络模型图自动生成算法研究[A];煤矿机电一体化新技术创新与发展2012学术年会论文集[C];2012年
6 周胜利;耿显民;;具有真实网络一般特性的复杂网络模型[A];第七届中国不确定系统年会论文集[C];2009年
7 杨洪勇;王福生;;基于带宽的Internet网络模型[A];2007中国控制与决策学术年会论文集[C];2007年
8 赵雁飞;刘永忠;陈三强;孙皓;;冷冻干燥过程相迁移和相分布的孔尺度网络模型与模拟[A];第八届全国冷冻干燥学术交流会论文集[C];2005年
9 梁昌洪;郑家骏;;复电介质反演的精确网络模型[A];2001年全国微波毫米波会议论文集[C];2001年
10 刘杰;陆君安;;两类复杂网络模型及其同步能力研究[A];2006全国复杂网络学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 齐峰;人工神经树网络模型的优化研究与应用[D];山东师范大学;2011年
2 李淑静;复合复杂网络模型研究与应用[D];青岛大学;2011年
3 谭利;复杂网络模型及应用研究[D];中南大学;2010年
4 隋毅;多子网复合复杂网络模型及其相关性质的研究[D];青岛大学;2012年
5 黄朝琴;基于离散缝洞网络模型的多尺度两相流动模拟理论研究[D];中国石油大学(华东);2012年
6 岳博;Bayes网络模型及其学习算法研究[D];西安电子科技大学;2002年
7 彭利民;基于Cayley图的无线P2P覆盖网络模型及相关技术研究[D];华南理工大学;2011年
8 王晨晨;碳酸盐岩介质双孔隙网络模型构建理论与方法[D];中国石油大学(华东);2013年
9 蔡先锋;矿井三维地理网络模型及网络分析研究[D];中国矿业大学(北京);2012年
10 姜江;证据网络建模、推理及学习方法研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 王芳;基于深度信念网络的资源检索与推荐系统[D];北京邮电大学;2015年
2 杨光勇;科研合作超网络模型的构建及其应用研究[D];上海理工大学;2013年
3 李倩;深度网络模型构建及学习算法研究[D];西安电子科技大学;2014年
4 闫廷亚;基于GHSOM网络模型的FY-2E夜间卫星云图分类方法研究[D];华东交通大学;2015年
5 刘峰;轨道车辆MVB网络模型研究与设计[D];长春工业大学;2016年
6 齐亚萍;具有实数词汇结构的语言竞争复杂agent网络模型[D];昆明理工大学;2016年
7 邵春昌;基于图理论的信息网络模型研究[D];中央民族大学;2016年
8 郑光璞;模拟视觉皮层工作机制的发育网络模型研究[D];郑州大学;2016年
9 张磊;微博超网络模型的建立及关键节点识别方法研究[D];南京航空航天大学;2016年
10 田茂根;并行超网络的研究及其在电影评分预测等问题中的应用[D];重庆邮电大学;2016年
中国重要报纸全文数据库 前3条
1 ;智能光网络的网络模型[N];人民邮电;2003年
2 冯卫东;美构建可快速确认基因功能的基因网络模型[N];科技日报;2008年
3 贺赞晖 唐大海;价格网络与金融属性定价[N];期货日报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978