收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于值函数和策略梯度的深度强化学习综述

刘建伟  高峰  罗雄麟  
【摘要】:作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注.目前,深度强化学习能够解决很多以前难以解决的问题,比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略,深度强化学习通过不断优化控制策略,建立一个对视觉世界有更高层次理解的自治系统.其中,基于值函数和策略梯度的深度强化学习是核心的基础方法和研究重点.该文对这两类深度强化学习方法进行了系统的阐述和总结,包括用到的求解算法和网络结构.首先,本文概述了基于值函数的深度强化学习方法,包括开山鼻祖深度Q网络和基于深度Q网络的各种改进方法.然后介绍了策略梯度的概念和常见算法,并概述了深度确定性策略梯度、信赖域策略优化和异步优势行动者-评论家这三种基于策略梯度的深度强化学习方法及相应的一些改进方法.接着概述了深度强化学习前沿成果阿尔法狗和阿尔法元,并分析了后者和该文概述的两种深度强化学习方法的联系.最后对深度强化学习的未来研究方向进行了展望.

知网文化
【相似文献】
中国期刊全文数据库 前19条
1 陈敏康;喻学恒;;神经网络结构及学习规则的研究[J];海军工程学院学报;1989年04期
2 梁一峰;廖晓峰;任晓霞;;基于树形奇偶机的神经网络同步新学习规则[J];计算机应用;2013年01期
3 吴建生,周优军,金龙;神经网络及其研究进展[J];广西师范学院学报(自然科学版);2005年01期
4 陈文兵;宋玛君;王廷春;;一种利用极限学习机的数据可视化方法[J];计算机工程与科学;2017年05期
5 肖军,何怡刚,吴杰;Hebb学习规则的开关电流实现[J];微电子学与计算机;1999年04期
6 冷明伟;陈晓云;谭国律;;基于小样本集弱学习规则的KNN分类算法[J];计算机应用研究;2011年03期
7 王红睿;赵黎明;;基于增强学习规则的倒立摆模糊神经网络控制器[J];吉林大学学报(信息科学版);2006年05期
8 王科俊,李殿璞,李国斌;一种新的神经元统一模型[J];哈尔滨工程大学学报;1996年03期
9 徐天伟;黄晓;周菊香;高炜;;随机学习规则下的可学习性和LOO稳定性分析(英文)[J];苏州大学学报(自然科学版);2012年04期
10 赵冬斌;邵坤;朱圆恒;李栋;陈亚冉;王海涛;刘德荣;周彤;王成红;;深度强化学习综述:兼论计算机围棋的发展[J];控制理论与应用;2016年06期
11 严威;;无线网络中多神经网络密钥协商协议研究[J];数字技术与应用;2013年11期
12 白翔;侯勇;;反向传播神经网络及改进方法探讨[J];现代商贸工业;2009年07期
13 郭创新,曾杰,梁年生;自学习规则型水电设备故障诊断专家系统[J];湖北水力发电;1996年03期
14 李红霞;;感知机学习算法模拟与改进[J];信息与电脑(理论版);2009年10期
15 程洪,郑南宁,高振海,李青;基于主元神经网络和K-均值的道路识别算法[J];西安交通大学学报;2003年08期
16 肖林;皮赛男;孟凡斌;;梯度神经网络在p次方根求解中的应用[J];吉首大学学报(自然科学版);2015年03期
17 刘永军,封筠,张国兵,彭育贵;基于人工神经网络的铁路工程技术应用研究[J];计算机工程与应用;2003年14期
18 杨静;赵欣;徐彦;姜赢;;基于梯度下降的脉冲神经元精确序列学习算法[J];计算机工程与应用;2018年23期
19 彭琛;韩立新;;基于深度强化学习的计步方法[J];计算机与现代化;2019年01期
中国重要会议论文全文数据库 前5条
1 严传魁;王如彬;;基于一种自适应突触学习规则的非对称神经网络同步与动力学研究[A];第一届全国神经动力学学术会议程序手册 & 论文摘要集[C];2012年
2 王永骥;徐桂英;张晓兰;涂健;;基于修正δ规则的神经网络控制[A];1995中国控制与决策学术年会论文集[C];1995年
3 邓海伟;;自适应共振网络的实现及分析[A];全国第十五届计算机科学与技术应用学术会议论文集[C];2003年
4 张海涛;陈宗海;向微;;人工神经网络在系统控制和建模中的应用综述[A];'2003系统仿真技术及其应用学术交流会论文集[C];2003年
5 彭新俊;;基于神经网络的盲信号提取[A];第二十四届中国控制会议论文集(下册)[C];2005年
中国博士学位论文全文数据库 前1条
1 宋梅萍;结合围捕问题的合作多智能体强化学习研究[D];哈尔滨工程大学;2005年
中国硕士学位论文全文数据库 前10条
1 孙明明;基于结构塑性的脉冲神经P系统研究与应用[D];山东师范大学;2018年
2 李丹;基于时间编码的储备池学习算法研究[D];西北师范大学;2017年
3 刘晓曈;基于深度学习的分类预测方法研究及应用[D];东南大学;2017年
4 吕永浦;整合—激发模型特性研究及其应用[D];西安电子科技大学;2006年
5 马雪东;基于深度学习的电商产品图像识别系统的研究与实现[D];北京邮电大学;2017年
6 王庆忠;基于深度学习的手写字符串识别方法研究[D];哈尔滨工程大学;2016年
7 侯鹏飞;基于泛函梯度的策略梯度方法的研究[D];南京大学;2017年
8 王飞;基于深度学习的人脸识别算法研究[D];兰州交通大学;2017年
9 许丹;方差相关的策略梯度方法研究[D];苏州大学;2016年
10 王次臣;基于深度学习的大规模图数据挖掘[D];南京邮电大学;2017年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978