收藏本站
《哈尔滨工程大学学报》 2004年02期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

强化学习方法在移动机器人导航中的应用

陆军  徐莉  周小平  
【摘要】:路径规划是智能机器人关键问题之一,它包括全局路径规划和局部路径规划.局部路径规划是路径规划的难点,当环境复杂时,很难得到好的路径规划结果.这里将强化学习方法用于自主机器人的局部路径规划,用以实现在复杂未知环境下的路径规划.为了克服标准Q 学习算法收敛速度慢等缺点,采用多步在策略SARSA(λ)强化学习算法,讨论了该算法在局部路径规划问题上的具体应用.采用CMAC神经网络实现了强化学习系统,完成了基于CMAC神经网络的SARSA(λ)算法.提出了路径规划和沿墙壁行走两个网络的互相转换的方法,成功解决了复杂障碍物环境下的自主机器人的局部路径规划问题.仿真结果表明了该算法的有效性,同传统方法相比该算法有较强的学习能力和适应能力.

【引证文献】
中国期刊全文数据库 前2条
1 徐明亮;柴志雷;须文波;;移动机器人模糊Q-学习沿墙导航[J];电机与控制学报;2010年06期
2 杨立苹;洪炳镕;周浦城;;基于Motor Schema的移动机器人反应式导航[J];哈尔滨商业大学学报(自然科学版);2005年05期
中国博士学位论文全文数据库 前1条
1 李彩虹;移动机器人智能体混合式体系结构研究[D];山东大学;2007年
中国硕士学位论文全文数据库 前10条
1 任建功;基于强化学习的自主式移动机器人导航控制[D];哈尔滨工业大学;2010年
2 钟衍凡;基于ABLE的机器学习系统的研究与改进[D];暨南大学;2007年
3 易良;基于激励学习和人工势场法的机器人路径规划[D];长沙理工大学;2007年
4 张尚炜;基于强化学习的机械臂避碰研究[D];华中科技大学;2007年
5 李永龙;基于IGA的“类等效”建模在全自主足球机器人双闭环调速系统中的应用研究[D];重庆大学;2008年
6 武德臣;RoboCup中型足球机器人前景视觉定位模型及其参数辨识[D];重庆大学;2008年
7 付成伟;基于分层强化学习的移动机器人路径规划[D];哈尔滨工程大学;2008年
8 郭娜;基于模拟退火-Q学习的移动机器人路径规划技术研究[D];南京理工大学;2009年
9 汪亚光;全自主中型两轮足球机器人到定点运动时间路径最优控制[D];重庆大学;2009年
10 罗胜华;未知环境下移动机器人路径规划研究[D];湘潭大学;2009年
【参考文献】
中国期刊全文数据库 前5条
1 陆军,张秀梅,李殿璞,华克强;CMAC神经网络模糊控制器设计[J];电子技术应用;2000年07期
2 张汝波,杨广铭,顾国昌,张国印;Q-学习及其在智能机器人局部路径规划中的应用研究[J];计算机研究与发展;1999年12期
3 陈焕文,谢丽娟,谢建平;一类值函数激励学习的遗忘算法[J];计算机研究与发展;2001年04期
4 陈卫东,席裕庚,顾冬雷;自主机器人的强化学习研究进展[J];机器人;2001年04期
5 陈卉,周萍,欧阳楷;小脑模型CMAC网络结构及有关参数的确定[J];计算机工程;2003年02期
【共引文献】
中国期刊全文数据库 前10条
1 张冬梅;刘强;;一种基于强化学习的传感器网络应用重构决策方法[J];北京交通大学学报;2010年03期
2 杨萍;毕义明;孙淑玲;;具有自主决策能力的机动单元智能体研究[J];兵工学报;2007年11期
3 赵晓华;李振龙;于泉;张杰;;基于切换模型的两交叉口信号灯Q学习协调控制[J];北京工业大学学报;2007年11期
4 孙若莹;李忱;赵刚;;基于强化学习的牛鞭效应对策模型[J];北京信息科技大学学报(自然科学版);2011年01期
5 杨波;王俊奎;;无人机舵面负载模拟系统的小脑模型控制[J];北京航空航天大学学报;2009年11期
6 马耀飞;龚光红;彭晓源;;基于强化学习的航空兵认知行为模型[J];北京航空航天大学学报;2010年04期
7 刘华强;唐荻;杨荃;郭立伟;;模糊小脑模型神经网络在多辊冷连轧机轧制力预报模型中的应用[J];北京科技大学学报;2006年10期
8 张玉洁;孟祥武;;遗忘遗传算法及其在信用评分中的应用[J];北京科技大学学报;2012年04期
9 王华;崔晓婷;刘向东;张宇河;;基于Q-学习的卫星姿态在线模糊神经网络控制[J];北京理工大学学报;2006年03期
10 毕金波,吴沧浦;有效的自适应λ即时差异学习(英文)[J];Journal of Beijing Institute of Technology(English Edition);1999年03期
中国重要会议论文全文数据库 前10条
1 毛剑琳;向凤红;冯丽辉;;一种改进的IEEE802.15.4自适应实时带宽分配策略[A];第二十七届中国控制会议论文集[C];2008年
2 马丽;刘惟一;;多个交通路口调度博弈模型及其均衡求解的增强学习算法[A];第二十七届中国控制会议论文集[C];2008年
3 ;Complexity Analysis of Quantum Reinforcement Learning[A];第二十九届中国控制会议论文集[C];2010年
4 朴松昊;洪炳熔;褚海涛;;基于BDI的多Agent协作模型研究[A];2003中国控制与决策学术年会论文集[C];2003年
5 刘长有;孙光余;;一种应用Elman型回归网络的Q-学习[A];2004中国控制与决策学术年会论文集[C];2004年
6 邹亮;徐建闽;;基于Q-learning的电子地图动态最短路径求解方法[A];2005中国控制与决策学术年会论文集(下)[C];2005年
7 ;Hybrid Q-learning Algorithm About Cooperation in MAS[A];2009中国控制与决策会议论文集(3)[C];2009年
8 ;An Adaptive Inventory Control for a Supply Chain[A];2009中国控制与决策会议论文集(3)[C];2009年
9 谢志华;郑应平;;基于再励学习的排队系统优化控制[A];1995年中国控制会议论文集(下)[C];1995年
10 Meng Joo Er;;Modeling and Fuzzy Q-Learning Control of Biped Walking[A];第二十四届中国控制会议论文集(上册)[C];2005年
中国博士学位论文全文数据库 前10条
1 王作为;具有认知能力的智能机器人行为学习方法研究[D];哈尔滨工程大学;2010年
2 高延增;超小型水下机器人关键性能提升技术研究[D];华南理工大学;2010年
3 黄正行;临床过程分析与优化技术研究[D];浙江大学;2010年
4 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
5 冯奇;POMDP近似解法研究及在中医诊疗方案优化中的应用[D];北京交通大学;2011年
6 孙祥;大学生就业区域流向及引导策略研究[D];合肥工业大学;2011年
7 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
8 李珺;基于强化学习的多机器人追捕问题研究[D];哈尔滨工业大学;2010年
9 李红梅;智能优化方法在电力系统调频中的应用研究[D];上海交通大学;2011年
10 徐一帆;天基海洋移动目标监视的联合调度问题研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 张家飞;机器人群体协同任务规划与协调避碰[D];哈尔滨工程大学;2010年
2 尹继超;机器人遥操作中关键技术的研究[D];哈尔滨工程大学;2010年
3 李志强;Q学习在单路口交通信号控制中的应用研究[D];长沙理工大学;2010年
4 姜新丽;基于强化学习的多机器人协作控制方法研究[D];沈阳理工大学;2010年
5 乐天助;认知网络路由技术研究[D];西安电子科技大学;2011年
6 张小刚;面向社区服务的联机分析系统研究与实现[D];西安电子科技大学;2009年
7 伊婧;基于强化学习的机器人行为学习[D];沈阳工业大学;2011年
8 孙亚光;基于蚁群算法的无线传感器网络路由协议的研究[D];北京交通大学;2011年
9 梁英波;基于ADP的在线学习算法及其在热轧活套中的应用研究[D];武汉理工大学;2011年
10 肖文;基于QoS的可信Web服务组合及其相关问题研究[D];西南大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 吴洪岩;刘淑华;张嵛;;基于RBFNN的强化学习在机器人导航中的应用[J];吉林大学学报(信息科学版);2009年02期
2 陈华华,杜歆,顾伟康;基于神经网络和遗传算法的机器人动态避障路径规划[J];传感技术学报;2004年04期
3 王晓宇;闫继宏;臧希喆;秦勇;赵杰;;两轮自平衡机器人多传感器数据融合方法研究[J];传感技术学报;2007年03期
4 姜延,高庆吉,张利辉,石朝侠;全自主型足球机器人目标识别与定位方法研究[J];东北电力学院学报;2002年03期
5 吴伟;刘兴刚;王忠实;徐心和;;多传感器融合实现机器人精确定位[J];东北大学学报(自然科学版);2007年02期
6 王海英;尤波;张礼勇;李红文;;基于改进遗传算法的移动机器人PID参数优化设计[J];东北林业大学学报;2008年02期
7 彭一准;原魁;刘俊承;邹伟;;室内移动机器人的三层规划导航策略[J];电机与控制学报;2006年04期
8 谢云;杨宜民;;基于单目视觉的自主足球机器人自定位研究[J];电路与系统学报;2006年01期
9 庞素超;陈实;;用动态规划方法求解最短路问题[J];大庆石油学院学报;2007年03期
10 陆军,张秀梅,李殿璞,华克强;CMAC神经网络模糊控制器设计[J];电子技术应用;2000年07期
中国博士学位论文全文数据库 前1条
1 王醒策;基于强化学习和群集智能方法的多机器人协作协调研究[D];哈尔滨工程大学;2005年
中国硕士学位论文全文数据库 前3条
1 余存;RoboCup中型组足球机器人视觉系统的研究与设计[D];山东大学;2007年
2 刘泽文;基于人工势场的激励学习问题研究[D];长沙理工大学;2008年
3 吴涛;动态规划算法应用及其在时间效率上的优化[D];南京理工大学;2008年
【二级引证文献】
中国期刊全文数据库 前2条
1 蔡建羡;孙旭光;杨秋格;;映射领域可自主收缩的操作条件反射自动机[J];电机与控制学报;2012年09期
2 张晶晶;周德云;张堃;;一种基于强化学习的UAV目标搜索算法[J];计算机应用研究;2011年10期
中国博士学位论文全文数据库 前3条
1 高延增;超小型水下机器人关键性能提升技术研究[D];华南理工大学;2010年
2 吴恭兴;无人艇操纵性与智能控制技术研究[D];哈尔滨工程大学;2011年
3 仲训昱;遥自主移动机器人运动规划与控制技术研究[D];哈尔滨工程大学;2009年
中国硕士学位论文全文数据库 前10条
1 鄢小虎;基于生物智能的移动机器人路径规划研究[D];华北电力大学(北京);2010年
2 解攀科;基于Android的移动学习系统设计与实现[D];华中师范大学;2011年
3 宋颖丽;基于行为的移动机器人局部路径规划方法研究[D];山东理工大学;2011年
4 阚维;自主式水下机器人上层决策系统的研究与实现[D];中国海洋大学;2011年
5 姚靖靖;移动机器人无线监控系统设计与避障路径规划研究[D];南昌大学;2011年
6 邱实;服务机器人远程控制关键技术研究[D];哈尔滨工业大学;2010年
7 刘志伟;多元测距AUV环境感知与自主规避方法研究[D];哈尔滨工程大学;2011年
8 许俊伟;八足机器人步行机制及稳定性研究[D];哈尔滨工程大学;2011年
9 邹青华;基于多传感器的移动机器人避障[D];浙江工业大学;2011年
10 屈菊红;基于虚拟仪器的足球机器人运动控制的研究及其实现[D];北方工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前4条
1 陈卉,欧阳楷;BP网络与CMAC网络的仿真比较[J];北京生物医学工程;1997年02期
2 张汝波,杨广铭,顾国昌,张国印;Q-学习及其在智能机器人局部路径规划中的应用研究[J];计算机研究与发展;1999年12期
3 张东摩;李红兵;;人工智能研究动态与发展趋势——参加第十五届国际人工智能联合大会总结报告[J];计算机科学;1998年02期
4 欧阳楷,陈卉,周萍,周琛;神经计算中坐标变换的网络模型(CMAC)的泛化特性[J];自动化学报;1997年04期
【相似文献】
中国期刊全文数据库 前10条
1 薛丽华;殷苌茗;李立云;胡明辉;;基于多智能体的融合Sarsa(λ)学习算法[J];计算机工程与应用;2008年04期
2 殷翔,黄展翔;强化学习在仿真机器人足球踢球动作中的应用[J];苏州大学学报(工科版);2002年04期
3 李春贵,刘永信;一种有限时段Markov决策过程的强化学习算法[J];广西工学院学报;2003年01期
4 刘菲;曾广周;;基于强化学习的多移动Agent学习算法[J];计算机工程与应用;2006年05期
5 宋一然;;基于强化学习的多机器人路径规划方法[J];莆田学院学报;2006年02期
6 何锫;王峰;肖淑苹;;基于异联想记忆Hopfield网络的强化学习[J];微计算机信息;2008年26期
7 张汝波,顾国昌,刘照德,王醒策;强化学习理论、算法及应用[J];控制理论与应用;2000年05期
8 李宁,高阳,陆鑫,陈世福;一种基于强化学习的学习Agent[J];计算机研究与发展;2001年09期
9 张荣,陈卫东;基于强化学习的倒立摆起摆与平衡全过程控制[J];系统工程与电子技术;2004年01期
10 张化祥;黄上腾;;基于强化学习与对策的多代理协同技术[J];计算机科学;2004年08期
中国重要会议论文全文数据库 前10条
1 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
2 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
3 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
4 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
5 张家旺;韩光胜;张伟;;基于ASPL模型的多智能体强化学习在RoboCup中的应用[A];2005中国机器人大赛论文集[C];2005年
6 敬斌;田野;;Robocup中的传球策略[A];2005中国机器人大赛论文集[C];2005年
7 涂自然;王维;梁以业;禹建丽;;基于强化学习的自适应变步长机器人路径规划算法[A];2003年中国智能自动化会议论文集(上册)[C];2003年
8 张超;程荫杭;苗宇;;基于几何尺寸的车辆自主导航路径规划算法[A];可持续发展的中国交通——2005全国博士生学术论坛(交通运输工程学科)论文集(下册)[C];2005年
9 方宝富;王浩;姚宏亮;杨静;周晋;;Q学习在机器人足球中的应用[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
10 叶道年;陈卫东;;机器人团队协作的强化学习[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
3 王良豪 记者 刘伟 龙先华;通过创新工作取得活动效果[N];六盘水日报;2008年
4 书分;解放区审计局强化学习抓作风[N];焦作日报;2006年
5 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
6 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
7 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
8 通讯员 马全有;强化学习 搞好服务 解放思想[N];甘肃法制报;2007年
9 李北川;强化学习 找准问题 着力整改[N];凉山日报(汉);2007年
10 记者 刘莉 实习记者 刘慕欣;兵团党委“保先”教育活动督导组强化学习[N];兵团日报(汉);2005年
中国博士学位论文全文数据库 前10条
1 金钊;加速强化学习方法研究[D];云南大学;2010年
2 徐明亮;强化学习及其应用研究[D];江南大学;2010年
3 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
4 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
5 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
6 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年
7 戴朝晖;基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D];中南大学;2012年
8 杨东勇;多机器人协作的学习与进化方法[D];浙江大学;2005年
9 庄晓东;多移动机器人运动控制策略的强化学习研究[D];中国海洋大学;2005年
10 洪晔;基于马尔可夫决策过程的AUV路径规划研究[D];哈尔滨工程大学;2007年
中国硕士学位论文全文数据库 前10条
1 徐莉;Q-learning研究及其在AUV局部路径规划中的应用[D];哈尔滨工程大学;2004年
2 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
3 姜沛然;基于模糊理论和强化学习的自主式水下机器人运动规划技术[D];哈尔滨工程大学;2005年
4 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
5 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
6 郭一明;基于强化学习的劣化系统维修策略研究[D];合肥工业大学;2011年
7 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
8 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
9 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
10 张驰;基于ROBOCUP的多智能体系统设计与实现[D];北京工业大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026