收藏本站
《计算机工程与应用》 2011年23期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于联合强化学习的RoboCup-2D传球策略

常晓军  
【摘要】:在传统Q学习算法基础上引入多智能体系统,提出了多智能体联合Q学习算法。该算法是在同一评价函数下进行多智能体的学习,并且学习过程考虑了参与协作的所有智能体的学习结果。在RoboCup-2D足球仿真比赛中通过引入球场状态分解法减少了状态分量,采用联合学习得到的最优状态作为多智能体协作的最优动作组,有效解决了仿真中各智能体之间的传球策略及其协作问题,仿真和实验结果证明了算法的有效性和可靠性。
【作者单位】西安理工大学自动化与信息工程学院;
【分类号】:TP242.6

手机知网App
【参考文献】
中国期刊全文数据库 前4条
1 刘春阳;谭应清;柳长安;马莹巍;;多智能体强化学习在足球机器人中的研究与应用[J];电子学报;2010年08期
2 刘亮;李龙澍;;基于局部合作的RoboCup多智能体Q-学习[J];计算机工程;2009年09期
3 段勇;崔宝侠;徐心和;;多智能体强化学习及其在足球机器人角色分配中的应用[J];控制理论与应用;2009年04期
4 王浩;尚丽;方宝富;李龙;;基于换位思考模型的多智能体协作研究及在RoboCup中的应用[J];小型微型计算机系统;2009年05期
中国博士学位论文全文数据库 前1条
1 肖正;多Agent系统中合作与协调机制的研究[D];复旦大学;2009年
中国硕士学位论文全文数据库 前1条
1 刘苗;多智能体协作策略的研究及在RoboCup中的应用[D];中南大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 钟秋波;朴松昊;杨滨;;基于参数优化的类机器人运动规划研究[J];电子学报;2012年06期
2 朱旭;闫建国;屈耀红;;高阶多智能体系统的一致性分析[J];电子学报;2012年12期
3 杨洪勇;张玉玲;寇光杰;丁宏;;基于采样数据的时延多智能体系统的动态路径跟踪[J];电子学报;2013年09期
4 章小兵;陈黎;刘艳春;;基于Robocuo的智能协作防守[J];安徽工业大学学报(自然科学版);2011年03期
5 邓本再;张中景;王江银;;基于最优化模糊逻辑的Robocup中型组动态角色分配[J];计算技术与自动化;2011年01期
6 吴军;徐昕;王健;贺汉根;;面向多机器人系统的增强学习研究进展综述[J];控制与决策;2011年11期
7 宋勇;李贻斌;李彩虹;;移动机器人路径规划强化学习的初始化[J];控制理论与应用;2012年12期
8 李冠峰;贺学剑;韩道军;;强化学习在中职招生系统中的应用[J];计算机应用与软件;2013年04期
9 余涛;张水平;;基于5要素试错更新算法SARSA(λ)的自动发电控制[J];控制理论与应用;2013年10期
10 秦童;;基于CMAC的Q算法在机器人足球中的应用[J];电子测试;2012年04期
中国博士学位论文全文数据库 前4条
1 马鑫;基于协同机制和智能算法的多代理系统研究及应用[D];吉林大学;2011年
2 杨斯博;基于自组织多Agent系统的智能控制与决策研究[D];天津大学;2012年
3 刘辉;电缆故障诊断理论与关键技术研究[D];华中科技大学;2012年
4 宋勇;机器人群体行为数学建模与定量分析方法研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘飞;强化学习方法在多机器人博弈系统中的应用研究[D];华北电力大学(北京);2011年
2 孙健;基于Agent技术的电子集市系统研究[D];中国政法大学;2011年
3 吴晓宁;基于多Agent的院级实验室管理系统的设计与实现[D];河北师范大学;2011年
4 徐武欣;基于MAS的高速公路除冰除雪作业指挥管理系统研究[D];长安大学;2011年
5 梁虎;RoboCup中型组机器人决策系统关键技术研究[D];长安大学;2011年
6 崔倡维;河北省民用机场协调发展研究[D];河北工业大学;2011年
7 张中景;RoboCup中型组机器人攻防决策研究[D];长沙理工大学;2011年
8 江俊杰;盾构掘进过程中的异常工况识别与智能决策[D];浙江大学;2012年
9 刘举艳;基于多Agent的中小型离散制造企业MES系统的设计与实现[D];汕头大学;2010年
10 孙翠丽;基于情境感知的多Agent电子教室系统研究[D];华中师范大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 周兰凤;洪炳熔;;用基于知识的遗传算法实现移动机器人路径规划[J];电子学报;2006年05期
2 周浦城;洪炳镕;黄庆成;;一种新颖的多agent强化学习方法[J];电子学报;2006年08期
3 黄鸿,郭巧,金玺,胡柳,宋祎斐;基于遗传算法的足球机器人避障策略[J];哈尔滨工业大学学报;2003年09期
4 马巧云;洪流;陈学广;;多Agent系统中任务分配问题的分析与建模[J];华中科技大学学报(自然科学版);2007年01期
5 高阳,周志华,何佳洲,陈世福;基于Markov对策的多Agent强化学习模型及算法研究[J];计算机研究与发展;2000年03期
6 蔡庆生,张波;一种基于Agent团队的强化学习模型与应用研究[J];计算机研究与发展;2000年09期
7 徐晋晖,张伟,路海明,石纯一;一种具有个性的Agent实现机制[J];计算机研究与发展;2001年06期
8 张冠群,陶先平,李新,冯新宇,吕建;Mogent系统迁移机制的设计和实现[J];计算机研究与发展;2001年09期
9 李宁,高阳,陆鑫,陈世福;一种基于强化学习的学习Agent[J];计算机研究与发展;2001年09期
10 李静,陈兆乾,陈世福,徐殿祥;多Agent Teamwork研究综述[J];计算机研究与发展;2003年03期
中国博士学位论文全文数据库 前1条
1 彭军;多智能体系统协作模型及其在足球机器人仿真系统中的应用[D];中南大学;2005年
中国硕士学位论文全文数据库 前3条
1 吕明;机器人足球系统的建模与策略研究[D];西北工业大学;2004年
2 李俊华;多机器人的协调合作技术与群组控制策略研究[D];西安电子科技大学;2006年
3 胡子婴;基于智能体系统的Q-学习算法的研究与改进[D];哈尔滨理工大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 金福江;;Agent的多目标优化分布式智能算法[J];华侨大学学报(自然科学版);2005年04期
2 朱李瑾;刘子忠;;图书馆联盟的技术构架——多智能体系统[J];图书馆论坛;2006年01期
3 马良荔,贲可荣;使用多Agent模型求解N-难题的新方法[J];海军工程学院学报;1996年04期
4 朱建伟,陈健;多智能体系统技术概论[J];机电设备;2004年03期
5 修世军;Mas冲突管理模型[J];丹东纺专学报;2005年01期
6 范波,潘泉,张洪才;一种基于分布式强化学习的多智能体协调方法[J];计算机仿真;2005年06期
7 王健强;杜辉;于澎;;机器人点焊工作站在汽车制造中的应用[J];机器人技术与应用;2006年04期
8 沈寿林;韩晓强;白承森;;Agent技术及其在作战模拟中的应用[J];计算机仿真;2006年09期
9 倪小雷;卜佳俊;;自主移动机器人混合式体系结构的设计与实现[J];计算机测量与控制;2006年11期
10 姜玉新;王莉;;基于MAS的运输企业管理信息系统模型构建[J];鞍山科技大学学报;2007年04期
中国重要会议论文全文数据库 前10条
1 杨洪勇;路兰;李晓;;时延多智能体系统的群集运动[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
2 张文广;郭振凯;;一类高阶多智能体系统的一致控制研究[A];中国自动化学会控制理论专业委员会C卷[C];2011年
3 姜海波;于建江;周彩根;;基于脉冲控制协议的线性离散多智能体系统的一致性[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
4 杨熙;王金枝;;多智能体系统一致性的鲁棒性分析[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
5 张亚;田玉平;;离散时间多智能体系统一致的权重条件[A];中国自动化学会控制理论专业委员会B卷[C];2011年
6 杨熙;王金枝;;Leader-Follower结构下多智能体系统一致性的鲁棒性能分析[A];第二十九届中国控制会议论文集[C];2010年
7 薛栋;姚静;余有灵;胡俊杰;;具有切换拓扑和非线性环节的关联多智能体系统一致性分析[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
8 刘华罡;方浩;毛昱天;曹虎;贾睿;;多智能体系统分布式群集运动与避障控制[A];第二十九届中国控制会议论文集[C];2010年
9 孙铁利;杨永明;赵晶晶;;营救智能体的研究与开发[A];2005年全国理论计算机科学学术年会论文集[C];2005年
10 杨文;汪小帆;;异质影响网络中的一致性问题[A];第三届全国复杂动态网络学术论坛论文集[C];2006年
中国重要报纸全文数据库 前4条
1 ;多智能体系统开发环境(MBOS)[N];计算机世界;2001年
2 记者 俞路石;中科大研制出智能服务机器人[N];中国教育报;2009年
3 记者 吴长锋;中科大机器人“可佳”能思考会推理[N];科技日报;2009年
4 记者 桂运安;“机器人世界杯”科大摘金夺银[N];安徽日报;2011年
中国博士学位论文全文数据库 前10条
1 吴治海;网络环境下的多智能体系统一致性问题研究[D];华中科技大学;2011年
2 王强;低阶多智能体系统分析与控制协议设计[D];山东大学;2012年
3 胡鸿翔;多智能体系统的一致性分析与控制[D];浙江工业大学;2013年
4 佘莹莹;多智能体系统一致性若干问题的研究[D];华中科技大学;2010年
5 姜海波;多智能体系统的脉冲一致性及其动力学研究[D];江苏大学;2012年
6 唐朝君;多智能体系统一致性问题与包含控制问题研究[D];电子科技大学;2012年
7 娄柯;多智能体系统蜂拥控制及应用[D];江南大学;2013年
8 郭凌;多智能体系统一致性与复杂网络同步控制研究[D];中南大学;2013年
9 彭科;带领导者的多智能体系统中的一致性问题研究[D];上海交通大学;2009年
10 潘福臣;多智能体系统的稳定性研究及其在人工股票市场上的应用[D];大连理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 尚旭辉;TSR-1足球机器人底层控制系统及通讯子系统的研究[D];天津大学;2004年
2 祖丽楠;多智能体分布式实时仿真实验系统开发与规划算法研究[D];吉林大学;2004年
3 王家凡;基于多智能体的交通流微观仿真[D];中南大学;2004年
4 邱宇航;协作协进化算法应用于多智能体协作的研究[D];浙江工业大学;2005年
5 张晓勇;RoboCup中多智能体系统协作的研究与实现[D];中南大学;2005年
6 秦志斌;自主移动机器人高可靠性软件体系结构研究[D];浙江大学;2006年
7 张驰;基于ROBOCUP的多智能体系统设计与实现[D];北京工业大学;2004年
8 杨俊卿;多移动机器人围捕算法的研究[D];山东科技大学;2005年
9 朱莹莹;基于Multi-Agent仿真机器人足球比赛策略研究与开发[D];华北电力大学(北京);2006年
10 郑旭栋;基于多智能体的车间调度系统研究[D];上海交通大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026