基于自注意力机制的视频行为分析
【摘要】:视频行为识别是智能视频分析的重要组成部分。传统人体行为识别基于人工设计特征方法涉及的环节多,具有时间开销大,算法难以整体调优的缺点。针对two-stream系列的深度卷积网络,时间网络的输入是直接以相邻两帧的光流场作为输入,其中也包含了镜头移动、背景运动等无关的运动特征的问题,在视频时序上仅通过分块取样固定长度的帧,其中有效的运动信息可能不完整或包含过多的冗余信息等问题。这篇文章提出了时空自注意力运动特征提取的方法,以RGB图像及其相邻帧的灰度图的视频帧块分别作为场景网络和运动网络的输入,采用多尺度视频划分的方式一定程度上避免了因视频过长导致采样运动信息不完整或冗余。然后在多尺度上对场景网络与运动网络通过自注意力机制融合编码,最终输出检测结果。对UCF101与HMDB51数据集的测试准确率分别为94.78%和71.47%。实验表明对于视频行为分析问题,场景与运动特征通过自注意力融合能够有效提升检测精度。
【相似文献】 | ||
|
|||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||
|