收藏本站
《广西工学院学报》 2003年01期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

一种有限时段Markov决策过程的强化学习算法

李春贵  刘永信  
【摘要】:研究有限时段非平稳的 Markov决策过程的强化学习算法。通过引入一个人工吸收状态 ,把有限时段问题变为无限时段问题 ,从而可利用通常的强化学习方法来求解。在文献 [3]提出的算法思想基础上 ,提出了一种新的有限时段非平稳的 Markov决策过程的强化学习算法 ,并用无完全模型的库存控制问题进行了实验
【作者单位】广西工学院计算机系 内蒙古大学自动化系
【分类号】:TP181

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 韩伟;;效用驱动的Markov强化学习[J];计算机工程与应用;2009年04期
2 陈玉明;张广明;赵英凯;;基于强化学习的混合智能控制算法研究与分析[J];机床与液压;2010年20期
3 唐亮贵;刘波;唐灿;程代杰;;基于神经网络的Agent增强学习模型[J];计算机科学;2007年11期
4 陈卫东,席裕庚,顾冬雷;自主机器人的强化学习研究进展[J];机器人;2001年04期
5 李春贵,林海涛,刘永信;多步截断SARSA强化学习算法[J];广西工学院学报;2002年01期
6 胡光华,胡光涛;一种在线自适应控制马氏链的强化学习算法[J];云南大学学报(自然科学版);2000年01期
7 李春贵,吴沧浦,刘永信;一种集成规划的SARSA(λ)强化学习算法[J];北京理工大学学报;2002年03期
8 殷翔,黄展翔;强化学习在仿真机器人足球踢球动作中的应用[J];苏州大学学报(工科版);2002年04期
9 刘菲;曾广周;;基于强化学习的多移动Agent学习算法[J];计算机工程与应用;2006年05期
10 宋一然;;基于强化学习的多机器人路径规划方法[J];莆田学院学报;2006年02期
中国重要会议论文全文数据库 前10条
1 文锋;陈宗海;陈春林;;基于RLS-TD和值梯度的强化学习方法用于LQR控制问题[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
2 卓睿;陈宗海;陈春林;;强化学习在移动机器人导航上的应用[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
3 张伟;李建更;张家旺;;多智能体强化学习在机器人足球比赛中的应用[A];2005年中国智能自动化会议论文集[C];2005年
4 张家旺;韩光胜;张伟;;基于ASPL模型的多智能体强化学习在RoboCup中的应用[A];2005中国机器人大赛论文集[C];2005年
5 敬斌;田野;;Robocup中的传球策略[A];2005中国机器人大赛论文集[C];2005年
6 陈春林;陈宗海;卓睿;;分层式强化学习的定性空间表达[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
7 涂自然;王维;梁以业;禹建丽;;基于强化学习的自适应变步长机器人路径规划算法[A];2003年中国智能自动化会议论文集(上册)[C];2003年
8 叶道年;陈卫东;;机器人团队协作的强化学习[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
9 方宝富;王浩;姚宏亮;杨静;周晋;;Q学习在机器人足球中的应用[A];2004中国机器人足球比赛暨学术研讨会论文集[C];2004年
10 陈焕文;谢丽娟;谢建平;;S(λ):一个基于平均奖赏MDPs的激励学习算法[A];2001年中国智能自动化会议论文集(上册)[C];2001年
中国重要报纸全文数据库 前1条
1 沈建苗 编译;人工智能步入壮年期[N];计算机世界;2009年
中国博士学位论文全文数据库 前10条
1 金钊;加速强化学习方法研究[D];云南大学;2010年
2 徐明亮;强化学习及其应用研究[D];江南大学;2010年
3 陈学松;强化学习及其在机器人系统中的应用研究[D];广东工业大学;2011年
4 朱美强;基于谱图理论的强化学习研究[D];中国矿业大学;2012年
5 仲宇;分布式强化学习理论及在多机器人中的应用研究[D];哈尔滨工程大学;2003年
6 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
7 郭庆;多Agent系统协商中若干关键技术的研究[D];浙江大学;2003年
8 戴朝晖;基于混合抽象机制的多智能体系统动态分层强化学习算法研究[D];中南大学;2012年
9 杨东勇;多机器人协作的学习与进化方法[D];浙江大学;2005年
10 庄晓东;多移动机器人运动控制策略的强化学习研究[D];中国海洋大学;2005年
中国硕士学位论文全文数据库 前10条
1 袁继彬;大规模Markov系统基于性能势学习的NDP优化方法研究[D];合肥工业大学;2005年
2 宋梅萍;多移动机器人协作任务的分布式决策控制系统[D];哈尔滨工程大学;2003年
3 卢方国;强化学习在个性化信息Agent的应用研究[D];广东工业大学;2004年
4 钱征;基于强化学习的倒立摆控制研究[D];北京工业大学;2005年
5 王瑞霞;基于强化学习的倒立摆控制[D];北京工业大学;2005年
6 张驰;基于ROBOCUP的多智能体系统设计与实现[D];北京工业大学;2004年
7 汪向利;基于多Agent的生产计划与调度系统研究与开发[D];浙江工业大学;2006年
8 周红莉;基于神经网络的移动机器人控制研究[D];兰州理工大学;2006年
9 姜沛然;基于模糊理论和强化学习的自主式水下机器人运动规划技术[D];哈尔滨工程大学;2005年
10 梅昊;群体机器人系统协同适应性研究[D];吉林大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026