收藏本站
收藏 | 投稿 | 论文排版

视觉语言多模态预训练综述

张浩宇  王天保  李孟择  赵洲  浦世亮  吴飞  
【摘要】:在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费。预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法。依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现。本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总。最后,总结了视觉语言预训练面临的挑战和未来发展趋势。

知网文化
【相似文献】
中国期刊全文数据库 前14条
1 鲜荣;何小海;吴晓红;卿粼波;;基于多模态双向导向注意的视觉问答[J];太赫兹科学与电子信息学报;2021年01期
2 管业鹏;;基于多模态视觉特征的自然人机交互[J];电子学报;2013年11期
3 张海涛;郭欣雨;;基于多模态推理图神经网络的场景文本视觉问答模型[J];计算机应用研究;2022年01期
4 王开心;徐秀娟;刘宇;赵哲焕;赵小薇;;在线评论的静态多模态情感分析[J];应用科学学报;2022年01期
5 陈耿;;语义增强的多模态虚假新闻检测思考[J];数字技术与应用;2022年01期
6 吴友政;李浩然;姚霆;何晓冬;;多模态信息处理前沿综述:应用、融合和预训练[J];中文信息学报;2022年05期
7 范涛;王昊;陈玥彤;;基于深度迁移学习的地方志多模态命名实体识别研究[J];情报学报;2022年04期
8 罗径庭;王勇;王瑛;;多模态融合情感分析模型研究[J];电子技术与软件工程;2021年04期
9 张亚洲;戎璐;宋大为;张鹏;;多模态情感分析研究综述[J];模式识别与人工智能;2020年05期
10 郝俊雯;;多模态下的高职公共英语教学初探[J];江西电力职业技术学院学报;2021年10期
11 刘清堂;李小娟;谢魁;常瑀倍;郑欣欣;;多模态学习分析实证研究的发展与展望[J];电化教育研究;2022年01期
12 马云飞;郑旭东;赵冉;刘慧;;深度学习的发生机制与多模态数据测评研究[J];远程教育杂志;2022年01期
13 颜增显;孔超;欧卫华;;基于多模态融合的人脸反欺骗算法研究[J];计算机技术与发展;2022年04期
14 谢亦才;易云;;深度多模态表征学习概述[J];电脑知识与技术;2022年09期
中国重要会议论文全文数据库 前20条
1 王力;夏海轮;郭彩丽;;基于音视频融合的视频标题生成[A];第十五届全国信号和智能信息处理与应用学术会议论文集[C];2022年
2 杨鹏鲲;;信息化背景下多模态话语分析理论在大学英语教学中的应用[A];华南教育信息化研究经验交流会2021论文汇编(六)[C];2021年
3 孔国庆;;多模态教学在初中英语阅读教学中的应用研究[A];华南教育信息化研究经验交流会2021论文汇编(十)[C];2021年
4 孔敏;;多模态教学模式在高职英语教学中的应用研究[A];2018年教师教育能力建设研究专题研讨会论文集[C];2018年
5 王仙锦;;试析网络环境下英语多模态写作教学优化策略[A];荆楚学术(2019年8月)[C];2019年
6 黎彦辰;;“慕课+翻转课堂”多模态教学下的大学英语教学效果评估方法探索[A];外语教育与翻译发展创新研究(第九卷)[C];2020年
7 ;中文信息处理发展报告(2016) 第十八章 多模态信息处理研究进展、现状及趋势[A];中文信息处理发展报告(2016)[C];2016年
8 曾云秀;许凯;秦龙;尹全军;;基于多模态输入的人类行为规划识别[A];2020中国仿真大会论文集[C];2020年
9 张霄军;;多模态语料库:抢救濒危语言的有效途径[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 李丹;;多模态理论框架下初中英语课堂中多媒体技术使用的必要性和有效性研究[A];外语教育与翻译发展创新研究(第八卷)[C];2019年
11 吴文波;;多模态医学影像融合导航系统的建立和临床研究[A];中国超声医学工程学会第二届全国介入超声医学学术交流大会论文汇编[C];2013年
12 徐希;;基于SPOC的多模态教学模式的研究[A];2019全国教育教学创新与发展高端论坛论文集(卷九)[C];2019年
13 史秋莹;郑铁然;韩纪庆;;基于DNN和多模态信息融合的复杂音频场景识别[A];第十四届全国人机语音通讯学术会议(NCMMSC’2017)论文集[C];2017年
14 卢俊;苏娟;杨罗;;视觉注意模型的研究与发展[A];国家安全地球物理丛书(八)——遥感地球物理与国家安全[C];2012年
15 李存;张凌浩;;视觉流和操作流理论在移动设备界面中的交互设计研究[A];软科学论坛——公共管理体制改革与发展研讨会论文集[C];2014年
16 田雨;王春慧;;视觉注意认知计算模型及其应用[A];2011年空间生命与生命起源暨航天医学工程学术研讨会论文集[C];2011年
17 王永森;田锦;张弛;刘宏哲;;基于视觉的前方目标测距技术研究进展[A];中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C];2018年
18 邵静;;基于视觉注意机制的复杂场景目标识别[A];第八届全国信息获取与处理学术会议论文集[C];2010年
19 张志龙;张焱;沈振康;;基于视觉注意模型的团块目标检测方法[A];第十四届全国图象图形学学术会议论文集[C];2008年
20 孙桂双;;基于视觉显著性的矿工检测方法的研究[A];第24届全国煤矿自动化与信息化学术会议暨第6届中国煤矿信息化与自动化高层论坛论文集[C];2014年
中国博士学位论文全文数据库 前20条
1 郑超群;面向高效多媒体检索的多模态哈希方法研究[D];山东师范大学;2021年
2 卢洪阳;清醒小动物多模态脑光学成像技术及应用[D];上海交通大学;2016年
3 刘曌雯;多模态生物数据分析与挖掘研究[D];西安电子科技大学;2018年
4 张淑美;基于数据驱动的复杂多模态过程模态识别及过程监测研究[D];东北大学;2016年
5 屈雯;基于多模态内容分析的多视角视频推荐技术研究[D];东北大学;2015年
6 年福东;基于语义先验约束的多媒体特征表示研究[D];安徽大学;2018年
7 李钊;多模态数据分类与检索的关键技术研究[D];北京交通大学;2018年
8 赵亮;多模态数据融合算法研究[D];大连理工大学;2018年
9 陈飞宇;多模态情感分析算法研究[D];电子科技大学;2022年
10 张亚洲;面向多模态情感分析的类量子交互模型[D];天津大学;2019年
11 章荪;面向多模态社交数据的情感分析技术研究[D];南京信息工程大学;2022年
12 聂为之;多模态媒体数据分析关键技术研究[D];天津大学;2014年
13 彭亮;基于多模态语义理解的视觉问答研究[D];电子科技大学;2022年
14 胡迪;机器多模态感知的相关研究[D];西北工业大学;2019年
15 王雷全;基于图模型的多模态社会媒体分析[D];北京邮电大学;2016年
16 程波;基于迁移学习的多模态脑图像分析及其应用研究[D];南京航空航天大学;2015年
17 谭帅;多模态过程统计建模及在线监测方法研究[D];东北大学;2012年
18 刘鹏;慢性伤口光学仿体的多尺度多模态医学影像技术研究[D];中国科学技术大学;2016年
19 王洋;多模态图像检索技术[D];中国科学技术大学;2013年
20 彭加亮;基于手指多模态生物特征的身份认证关键问题研究[D];哈尔滨工业大学;2014年
中国硕士学位论文全文数据库 前20条
1 余东晨;多模态学习理论与应用研究[D];上海交通大学;2019年
2 孙思远;基于多模态对抗网络的视频问答研究[D];电子科技大学;2021年
3 吴良庆;面向多模态信息的情绪分类方法研究[D];苏州大学;2020年
4 李朝阳;基于深度学习的多模态聚类分析[D];西安电子科技大学;2020年
5 张康;基于深度学习的多模态数据特征融合问题的研究[D];齐鲁工业大学;2021年
6 刘傲;基于深度学习的多模态智能问答技术研究[D];电子科技大学;2020年
7 付泽;多模态英文动词性和形容词性隐喻识别研究[D];厦门大学;2019年
8 李珍珍;阿尔兹海默症多模态辅助诊断模型研究[D];河南大学;2019年
9 刘雨杭;基于深度特征融合的人脸-语音多模态身份识别研究[D];华侨大学;2019年
10 孙健;基于知识嵌入主题模型的多模态社会事件分析[D];合肥工业大学;2019年
11 陈伟航;融合多模态数据的行人重识别[D];华南理工大学;2019年
12 李伟凤;基于多模态融合的社交情感分类研究[D];重庆邮电大学;2019年
13 孟祥海;基于改进Unet的脑腹部多模态影像分割[D];西安电子科技大学;2019年
14 轩雅莉;外语慕课教学视频中教师影像的多模态话语分析[D];四川外国语大学;2019年
15 张鑫;多模态PPT在初中英语教学中的应用调查[D];牡丹江师范学院;2019年
16 麻益通;基于多模态的在线学习情感分析模型设计与实现[D];南京师范大学;2019年
17 凌云昊;基于多模态情感识别的自适应教学系统研究与实现[D];上海交通大学;2018年
18 华阳;基于多模态词向量的语句距离计算方法[D];哈尔滨工业大学;2018年
19 杜金晓;跨域多模态数据分析关键技术研究[D];哈尔滨工业大学;2019年
20 龚志;基于多模态的音乐推荐系统[D];南京邮电大学;2019年
中国重要报纸全文数据库 前20条
1 记者 贡晓丽;为创新智能视觉提供更多可能[N];中国科学报;2018年
2 本报记者 张宣;聚焦红色经典视觉呈现背后的科技力量[N];新华日报;2021年
3 河北师范大学新闻传播学院硕士研究生 朱若凡;赛博朋克,不只是一种视觉效果[N];社会科学报;2021年
4 佛山日报记者 唐易婷;一“眼”识破 视觉AI把关产品质量[N];佛山日报;2022年
5 ;After Effects 6.0丰富动画和视觉效果[N];计算机世界;2003年
6 本报记者 秦志伟;中国工程院院士潘云鹤:视觉知识和多重知识的表达是AI 2.0关键[N];中国科学报;2021年
7 记者 徐瑞哲;健康绿码:戴着口罩也能精准识别[N];解放日报;2021年
8 南方日报记者 郜小平;视觉AI为传统产业装上“智慧之眼”[N];南方日报;2018年
9 本报见习记者 韩扬眉;潘云鹤:“视觉知识”推动AI2.0突破[N];中国科学报;2019年
10 林丽霞 福建技术师范学院外国语学院;基于大数据多模态的数智学习平台构建[N];中国社会科学报;2022年
11 本报记者 钟菡;“元宇宙”是个筐,啥都能往里装?[N];解放日报;2021年
12 记者 刘垠;首届中美视觉夏令营开营[N];大众科技报;2009年
13 本报记者 李治国;AI视觉芯片创造智慧生活[N];经济日报;2020年
14 本报记者 喻思南;今后,刷脸更准更安全[N];人民日报;2020年
15 ;依托数字视网膜技术 博云视觉助力纺织业智能改造[N];中国工业报;2020年
16 本报记者 黄慧仙 通讯员 赵经纬;走出科幻 走进生活[N];浙江日报;2019年
17 本报记者 许泳;视觉标签:贴上就跑不掉![N];计算机世界;2010年
18 本报记者 韩扬眉;中国工程院院士潘云鹤:开拓人工智能视觉知识的“北大荒”[N];中国科学报;2021年
19 本报记者 崔爽;标准出海 刷脸支付将更安全[N];科技日报;2020年
20 整理 记者 吉菁菁;最强大脑+火眼金睛[N];北京科技报;2021年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978