收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于联合博弈的多Agent学习

黄付亮  张荣国  陈大川  刘焜  
【摘要】:在研究Q-Learning算法的基础上,将博弈论中的团队协作理论引入到强化学习中,提出了一种基于联合博弈的多Agent学习算法。该算法通过建立多个阶段博弈,根据回报矩阵对阶段博弈的结果进行评估,为其提供一种有效的A-gent行为决策策略,使每个Agent通过最优均衡解或观察协作Agent的历史动作和自身当前情况来预测其所要执行的动作。对任务调度问题进行仿真实验,验证了该算法的收敛性。

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孟祥萍;苑全德;皮玉珍;陈渝;;基于强化学习的一类NP问题求解算法[J];现代电子技术;2007年04期
2 李志强,胡晓峰,张斌,董忠林;基于强化学习的指挥控制Agent适应性仿真研究[J];系统仿真学报;2005年11期
3 刘升贵;朱旦晨;;一种基于DFS的Agent强化学习策略研究[J];计算机与现代化;2010年12期
4 唐亮贵;刘波;唐灿;程代杰;;基于神经网络的Agent增强学习模型[J];计算机科学;2007年11期
5 王文玺;肖世德;孟祥印;陈应松;张卫华;;基于Agent的递阶强化学习模型与体系结构[J];机械工程学报;2010年02期
6 张尚炜;李世其;;基于强化学习的机械臂避碰研究[J];机械设计与制造;2007年08期
7 王文玺;肖世德;孟祥印;张卫华;;模糊神经网络下基于强化学习的自主式地面车辆路径规划研究[J];中国机械工程;2009年21期
8 程显毅;朱倩;;一种改进的强化学习方法在RoboCup中应用研究[J];广西师范大学学报(自然科学版);2010年03期
9 仲宇,张汝波,顾国昌;分布式强化学习系统的体系结构研究[J];计算机工程与应用;2003年11期
10 李宁,高阳,陆鑫,陈世福;一种基于强化学习的学习Agent[J];计算机研究与发展;2001年09期
11 郭红霞,吴捷,张端金,王春茹;多Agent技术的研究进展[J];河南科学;2004年02期
12 邱忠宇,王一欧,顾晃,吴昭同;基于多Agent的汽轮发电机组故障诊断系统[J];中国机械工程;2001年07期
13 张志良,楚丰,游大海,龙云;一种基于CORBA和Agent技术的电力市场仿真平台的研究[J];电力系统及其自动化学报;2002年04期
14 嵇海明,杨宗源,黄海涛;软件工程方法的新进展:面向Agent的软件工程[J];计算机应用研究;2003年05期
15 凌咏红;Agent迁移机制辨析[J];武汉理工大学学报;2003年06期
16 赵进,袁春风;移动Agent系统的安全性研究[J];计算机工程与设计;2004年04期
17 薛明志,钟伟才,刘静,焦李成;用于函数优化的正交Multi-Agent遗传算法[J];系统工程与电子技术;2004年09期
18 赵龙文,侯义斌;多Agent系统的组织结构与协同[J];计算机工程与应用;2000年10期
19 程显毅,董红斌;设计Agent系统应注意的问题[J];计算机工程与应用;2000年11期
20 优佳;管理你的UPS[J];市场与电脑;2000年09期
中国重要会议论文全文数据库 前10条
1 ;A Note on Two-agent Single-machine Scheduling Problem with Deteriorating Jobs[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
2 盛惠强;;基于内容和移动Agent的网络计费系统的设计[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
3 杨海明;程龙;赵佛晓;徐娟;;基于分布式Agent的网格任务调度模型研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 鲍翊平;姚莉;王长缨;尹晓虎;;一种多Agent协作的Q学习算法及其试验研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 颜宇甲;程国建;毛书君;;基于多Agent系统的生态系统建模和仿真[A];第十二届中国青年信息与管理学者大会论文集[C];2010年
6 李志凌;焦丽萍;;一种改进型Agent体系结构研究[A];第七届中国通信学会学术年会论文集[C];2010年
7 郭瑞鹏;王永军;董平;;基于Agent分布式国民经济动员决策支持系统研究[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年
8 张晓艳;唐吴;韩江洪;周雷;;多Agent系统连续时间Option算法[A];第二十九届中国控制会议论文集[C];2010年
9 陈红英;;基于Agent的GIS服务共享系统的研究[A];第二十七届中国控制会议论文集[C];2008年
10 ;Coordinated Control of Second-Order Multi-Agent Systems With Quantized-Observer[A];中国自动化学会控制理论专业委员会D卷[C];2011年
中国博士学位论文全文数据库 前10条
1 焦俊;基于多Agent系统的智能车辆自主行驶控制研究[D];合肥工业大学;2010年
2 贺利坚;多Agent系统中信任和信誉模型的研究[D];北京交通大学;2011年
3 王文玺;基于多Agent系统的自主式地面车辆关键技术研究[D];西南交通大学;2010年
4 高嘉爽;基于Agent及FEA的焊接加工过程协同设计系统研究[D];哈尔滨工业大学;2009年
5 赵欣培;一种基于Agent的软件过程建模方法研究[D];中国科学院研究生院(软件研究所);2005年
6 黄红兵;基于涌现视角的多Agent系统分析研究[D];国防科学技术大学;2009年
7 兰少华;多Agent技术及其应用研究[D];南京理工大学;2002年
8 李誌;基于视觉听觉语义相干性的强化学习系统的研究[D];太原理工大学;2012年
9 赵剑冬;基于Agent的产业集群企业竞争模型与仿真研究[D];华南理工大学;2010年
10 宋岩;基于多Agent和本体的散杂货港口集团船舶调度系统研究[D];北京交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 黄付亮;联合博弈框架下的多Agent强化学习算法研究[D];太原科技大学;2011年
2 周新华;基于多Agent的信息家电智能化研究[D];湖南师范大学;2009年
3 胡涛;基于多Agent的海洋数据采集与传输系统的研究[D];东华大学;2010年
4 顾陈琳;基于信任度模型的多Agent全局协调[D];南京航空航天大学;2010年
5 吴雪峰;基于Agent的易视监控审计系统设计及应用[D];南京理工大学;2010年
6 谢作坤;基于多Agent的车载信息管理系统[D];浙江工商大学;2010年
7 吕桃霞;基于Agent技术的网络安全审计模型研究与实现[D];山东师范大学;2011年
8 韩珍;驾驶员—车辆Agent微观换道行为的建模[D];中国科学技术大学;2011年
9 洪梅;基于Agent的对等分布式协同入侵检测技术的研究[D];山东大学;2010年
10 莫勇权;多Agent在网络管理中的应用研究[D];兰州大学;2010年
中国重要报纸全文数据库 前10条
1 孙佳宇;强化学习教育 增强服务意识[N];人民公安报;2009年
2 首席记者 朱丽华;强化学习 落实责任 确保取得实效[N];盘锦日报;2009年
3 王良豪 记者 刘伟 龙先华;通过创新工作取得活动效果[N];六盘水日报;2008年
4 书分;解放区审计局强化学习抓作风[N];焦作日报;2006年
5 记者 刘琰;强化学习 增强本领 扎实工作[N];周口日报;2009年
6 Hotsky;昨日重现[N];中国电脑教育报;2003年
7 王宏;从我为网活 到网为我用[N];中国计算机报;2003年
8 谭育才;强化学习 克己奉公[N];赤峰日报;2008年
9 章斌、特约记者夏吉龙;8710部队 破解难题强化学习教育效果[N];人民武警;2010年
10 河北 周建军;用Agent步入新闻组[N];电脑报;2001年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978