收藏本站
收藏 | 投稿 | 论文排版

动态环境中的分层强化学习

沈晶  程晓北  刘海波  顾国昌  张国印  
【摘要】:现有的强化学习方法都不能很好地处理动态环境中的学习问题,当环境变化时需要重新学习最优策略,若环境变化的时间间隔小于策略收敛时间,学习算法则不能收敛.本文在Option分层强化学习方法的基础上提出一种适应动态环境的分层强化学习方法,该方法利用学习的分层特性,仅关注分层任务子目标状态及当前Option内部环境状态的变化,将策略更新过程限制在规模较小的局部空间或维数较低的高层空间上,从而加快学习速度.以二维动态栅格空间内两点间最短路径规划为背景进行了仿真实验,实验结果表明,该方法策略学习速度明显高于以往的方法,且学习算法收敛性对环境变化频率的依赖性有所降低.

知网文化
【相似文献】
中国期刊全文数据库 前10条
1 陈记安,赖德生,余惠玲,关振东;富Te碲镉汞母液的动态液相温度测量[J];红外与毫米波学报;1986年05期
2 JamesE.Totten;李登云;;美国国防部电子战系统设计鉴定用的模拟器[J];航天电子对抗;1986年02期
3 李良良,张晨曦;顺序推理机研究中的几个重要问题[J];国防科技大学学报;1987年03期
4 程文;;最新发明专利信息[J];中国仪器仪表;1989年01期
5 张跃进;;一种新型的存贮结构——BD树[J];计算机工程与应用;1989年06期
6 钱大群;;一个快速命题模式匹配算法[J];计算技术与自动化;1989年03期
7 黄为倬;;用经济实用的方案来开展对飞机ISAR成象的实验研究[J];现代雷达;1989年04期
8 田华,刘宏伟,陈燕虹,马怀矣;电液伺服试验系统模拟动态环境的数学原理及提高模拟精度的探讨[J];吉林大学学报(工学版);1990年04期
9 姜馨杰,徐永森;规格说明语言NUSL及其支撑系统[J];计算机学报;1991年02期
10 江青茵;舒迪前;;过程专家系统的自适应实现[J];自动化学报;1992年06期
中国重要会议论文全文数据库 前10条
1 姚莉;;专家系统在C~3I中的应用初探[A];全国青年管理科学与系统科学论文集(第1卷)[C];1991年
2 程平;孙茂相;袁曾任;王艳红;;基于规则的移动机器人实时运动规划[A];1996年中国智能自动化学术会议论文集(下册)[C];1996年
3 何翠红;区益善;;用sGA进行动态函数优化[A];1996年中国智能自动化学术会议论文集(下册)[C];1996年
4 方剑;席裕庚;;动态环境下的Job Shop周期性滚动调度策略[A];1996中国控制与决策学术年会论文集[C];1996年
5 肖晴;许维胜;吴启迪;;多智能体系统用于企业集成[A];1998年中国控制会议论文集[C];1998年
6 郭宏飞;李景银;周伟;;高炉实时专家系统中异常处理规划的生成[A];1997中国控制与决策学术年会论文集[C];1997年
7 阿文菜;鲍志琴;杨青;;空气消毒洁净方法对手术室消毒效果观察[A];首届《中华护理杂志》论文写作知识专题讲座暨研讨会论文汇编[C];2001年
8 吴文启;梁石林;杨壮志;;动态姿态测量中惯性仪表信号的分析综合[A];2001年飞行器惯性器件学术交流会论文集[C];2001年
9 张纯刚;席裕庚;;动态未知环境中移动机器人的滚动路径规划及安全性分析[A];第二十届中国控制会议论文集(下)[C];2001年
10 徐咏梅;孙东川;;企业生命力持续性的动力系统分析[A];西部开发与系统工程——中国系统工程学会第12届年会论文集[C];2002年
中国博士学位论文全文数据库 前10条
1 刘海龙;动态环境下分布式智能系统的任务协作理论研究[D];浙江大学;2001年
2 唐平;多智能体系统冲突消解与智能机器人动态路径规划研究[D];广东工业大学;2002年
3 刘浩学;动态环境下汽车污染物排放及环境因素影响的研究[D];长安大学;2002年
4 李正卫;动态环境条件下的组织学习与企业绩效[D];浙江大学;2003年
5 洪伟;移动机器人系统中分布式传感器信息融合方法及路径规划问题的研究[D];吉林大学;2004年
6 游达明;基于知识的企业动态竞争优势构建理论与方法研究[D];中南大学;2004年
7 王晓东;动态环境下的企业战略更新研究[D];复旦大学;2004年
8 王长缨;多agent协作团队的学习方法研究[D];国防科学技术大学;2004年
9 王核成;基于动态能力观的企业竞争力及其演化研究[D];浙江大学;2005年
10 凌兴宏;面向Agent的敏捷信息系统关键技术及应用研究[D];南京航空航天大学;2005年
中国硕士学位论文全文数据库 前10条
1 王会丽;自动导向小车路径规划算法的研究及仿真[D];西安理工大学;2002年
2 施文武;自动引导车的智能导航与控制研究[D];合肥工业大学;2002年
3 张学习;MiroSot足球机器人的研制[D];广东工业大学;2003年
4 赵峰;动态环境下移动机器人路径规划[D];北京工业大学;2003年
5 李钰;多Agent系统结构及Agent间交互的研究[D];电子科技大学;2003年
6 丁庆;动态环境下治安防控体系建设的探索[D];华中师范大学;2003年
7 刘长庆;动态环境下的企业战略观——环境、战略、认知模式和变革[D];对外经济贸易大学;2003年
8 徐潼;多Agent系统的体系结构和协作研究[D];南京理工大学;2003年
9 麦强;基于复杂环境的高新技术企业核心能力研究[D];哈尔滨理工大学;2003年
10 周雪松;产业集群技术学习过程模式研究—以浙江省为例[D];浙江大学;2003年
中国重要报纸全文数据库 前10条
1 晋德泉;电动自行车市场上演品牌大战[N];大众科技报;2000年
2 洪炳熔;“绿茵场”掀起机器人大战[N];大众科技报;2000年
3 王奎庭;我国面临的环境科技需求[N];中国环境报;2001年
4 本报记者 陈嘉;朱穗生:强化动态环境下的治安防控[N];人民公安报;2001年
5 徐荣周;并非所有库房都设“三色六区”[N];医药经济报;2003年
6 ;回应连锁势力 华凌整合渠道结构[N];中国电子报;2004年
7 李永胜;惠普解读咨询服务成功四要素[N];中国计算机报;2004年
8 新代 吴滢;“点线面边”结合保稳定[N];人民公安报;2004年
9 本报记者 翟惠敏;危难时刻拨打110[N];法制日报;2005年
10 本报记者 刘树铎;空调环境污染严重  消毒市场商机待掘[N];中国经济时报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978