收藏本站
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

基于Q-学习的进化博弈决策模型

刘伟兵  黎民  王先甲  
【摘要】:基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略.

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 幸丽娟;田双亮;;高新技术中小企业知识共享的进化博弈分析[J];重庆文理学院学报(自然科学版);2011年04期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前4条
1 刘伟兵;王先甲;;基于Q-学习的进化博弈决策模型[A];和谐发展与系统工程——中国系统工程学会第十五届年会论文集[C];2008年
2 徐义春;韩芳;;结合TD(0)的马尔可夫链扰动分析求解算法[A];’2004系统仿真技术及其应用学术交流会论文集[C];2004年
3 袁继彬;唐昊;韩江洪;;马尔可夫决策过程基于TD(0)学习和性能势的NDP优化[A];第二十三届中国控制会议论文集(上册)[C];2004年
4 张晓艳;唐吴;韩江洪;周雷;;多Agent系统连续时间Option算法[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前8条
1 徐旭林;社会群体行为建模及其动力学分析[D];南开大学;2010年
2 林海;复杂网络若干动力学问题的研究[D];厦门大学;2007年
3 孙碧波;基于学习行为的噪声交易者情绪演化研究[D];复旦大学;2005年
4 王长缨;多agent协作团队的学习方法研究[D];国防科学技术大学;2004年
5 张慧;空间结构种群中基于博弈模型的合作进化的研究[D];兰州大学;2012年
6 付茂林;煤矿安全监察进化博弈分析[D];西南交通大学;2008年
7 张漪;随机决策中个体的信念调整模型与检验[D];南京理工大学;2008年
8 徐琰恺;控制系统的学习和优化:马尔可夫性能势理论与方法[D];清华大学;2008年
中国硕士学位论文全文数据库 前10条
1 尹晓虎;多Agent协同的强化学习方法研究[D];国防科学技术大学;2003年
2 毕中毅;基于进化博弈论的煤矿安全监管研究[D];西安科技大学;2011年
3 李玉英;基于生灭过程的策略进化动态[D];南京航空航天大学;2009年
4 安洪涛;制度变迁的博弈分析[D];河北农业大学;2005年
5 戴晓彬;个体间合作演化的分子动力学模拟[D];厦门大学;2007年
6 杨时武;基于进化博弈论的证券市场投资者结构分析[D];湖南大学;2009年
7 宋志远;公平规范对社区参与天然林保护合作的影响研究[D];中国科学院研究生院(生态环境研究中心);2008年
8 戴涛;基于多智能体的生产调度方法与应用[D];武汉理工大学;2006年
9 鲍翊平;多Agent协作团队的强化学习方法研究[D];国防科学技术大学;2005年
10 尚婷婷;具有双向错误的间接互惠多人博弈[D];南京航空航天大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978