收藏本站
《中国图象图形学报》 2017年09期
收藏 | 投稿 | 手机打开
二维码
手机客户端打开本文

融合图像场景及物体先验知识的图像描述生成模型

汤鹏杰  谭云兰  李金忠  
【摘要】:目的目前基于深度卷积神经网络(CNN)和长短时记忆(LSTM)网络模型进行图像描述的方法一般是用物体类别信息作为先验知识来提取图像CNN特征,忽略了图像中的场景先验知识,造成生成的句子缺乏对场景的准确描述,容易对图像中物体的位置关系等造成误判。针对此问题,设计了融合场景及物体类别先验信息的图像描述生成模型(F-SOCPK),将图像中的场景先验信息和物体类别先验信息融入模型中,协同生成图像的描述句子,提高句子生成质量。方法首先在大规模场景类别数据集Place205上训练CNN-S模型中的参数,使得CNN-S模型能够包含更多的场景先验信息,然后将其中的参数通过迁移学习的方法迁移到CNNd-S中,用于捕捉待描述图像中的场景信息;同时,在大规模物体类别数据集Imagenet上训练CNN-O模型中的参数,然后将其迁移到CNNd-O模型中,用于捕捉图像中的物体信息。提取图像的场景信息和物体信息之后,分别将其送入语言模型LM-S和LMO中;然后将LM-S和LM-O的输出信息通过Softmax函数的变换,得到单词表中每个单词的概率分值;最后使用加权融合方式,计算每个单词的最终分值,取概率最大者所对应的单词作为当前时间步上的输出,最终生成图像的描述句子。结果在MSCOCO、Flickr30k和Flickr8k 3个公开数据集上进行实验。本文设计的模型在反映句子连贯性和准确率的BLEU指标、反映句子中单词的准确率和召回率的METEOR指标及反映语义丰富程度的CIDEr指标等多个性能指标上均超过了单独使用物体类别信息的模型,尤其在Flickr8k数据集上,在CIDEr指标上,比单独基于物体类别的Object-based模型提升了9%,比单独基于场景类别的Scene-based模型提升了近11%。结论本文所提方法效果显著,在基准模型的基础上,性能有了很大提升;与其他主流方法相比,其性能也极为优越。尤其是在较大的数据集上(如MSCOCO),其优势较为明显;但在较小的数据集上(如Flickr8k),其性能还有待于进一步改进。在下一步工作中,将在模型中融入更多的视觉先验信息,如动作类别、物体与物体之间的关系等,进一步提升描述句子的质量。同时,也将结合更多视觉技术,如更深的CNN模型、目标检测、场景理解等,进一步提升句子的准确率。

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 周卫东,冯其波,匡萃方;图像描述方法的研究[J];应用光学;2005年03期
2 吴娱;赵嘉济;平子良;杜昊翔;;基于指数矩的图像描述[J];现代电子技术;2013年14期
3 任越美;程显毅;李小燕;谢玉宇;;基于概念级语义的图像描述与识别[J];计算机科学;2008年07期
4 毛玉萃;;一种面向用户需求的图像描述方法[J];制造业自动化;2010年11期
5 周昌;郑雅羽;周凡;陈耀武;;基于局部图像描述的目标跟踪方法[J];浙江大学学报(工学版);2008年07期
6 宫伟力;安里千;赵海燕;毛灵涛;;基于图像描述的煤岩裂隙CT图像多尺度特征[J];岩土力学;2010年02期
7 胡美燕,姜献峰,柴国钟;Hu矩在一次性输液针图像描述中的应用[J];中国图象图形学报;2005年02期
8 谢玉鹏;吴海燕;;基于AAM的人脸图像描述与编码[J];计算机仿真;2009年06期
9 阿木古楞,杨性愉,平子良;用变形雅可比(p=4,q=3)-傅立叶矩进行图像描述[J];光电子·激光;2003年09期
10 于永新;冯志勇;;基于常识库支持的图像描述和检索系统[J];计算机应用研究;2009年02期
中国博士学位论文全文数据库 前2条
1 梁浩然;自然图像的视觉显著性特征分析与检测方法及其应用研究[D];浙江工业大学;2016年
2 汤进;基于图理论的图像描述与检索方法研究[D];安徽大学;2007年
中国硕士学位论文全文数据库 前2条
1 钟艾妮;人脸识别中图像描述方法的研究[D];哈尔滨工业大学;2010年
2 陈影;基于复杂网络理论的图像描述与识别方法研究[D];安徽大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026