首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对在双流时间分段网络上进行行为识别在预处理阶段耗时长、精细度有待提高这一问题,在现有的时间分段网络的基础上,将深度学习求解光流场的算法引入到行为识别这一应用中.用原始RGB帧图像作为空间卷积网络的输入提取外观信息,深度学习算法从相邻帧提取的光流场特征图像作为时间卷积网络的输入提取运动信息,两者互为补充,最后将空间卷积网络和时间卷积网络的输出加权融合得到最终识别结果.实验结果表明:用深度学习求解光流场的算法可有效提高识别算法的运算速度,同时也取得了较好的识别效果.  相似文献   

2.
基于视频序列的面部表情识别问题主要有两个特点:空时性和显著性。近年来,许多研究人员利用卷积神经网络、循环神经网络、三维卷积神经网络等深度学习方法处理该问题的空时特性。但是,面部表情的显著性问题却往往被忽视。随着注意力机制在深度学习网络中的应用发展,其能够有效地解决各类任务中的显著性问题。该文将空时注意力机制应用到面部表情识别中,使得深度网络更多地关注空时特征中的显著性。具体地,该文将空间注意力模块嵌入到卷积网络中,以使空域特征更加关注对表情识别重要的区域,将时间注意力模块嵌入到门控循环单元(gated recurrent units,GRU)后,使得时域特征更加关注信息丰富的视频帧。在RECOLA情感数据库上的实验表明,与一般的深度模型相比,该文的深度空时注意力网络显著提高了面部表情识别的性能。  相似文献   

3.
刘文龙  陈春雨 《应用科技》2022,(2):49-54,62
为解决跌倒动作的检测和空间定位问题,本文以YOLOv3目标检测算法为基础,提出了一种全新的用于人跌倒动作识别的检测架构.本算法将视频拆分成一系列的图片序列,并在图片序列中指定关键帧.通过3D卷积神经网络提取视频序列中的时间维度特征,2D卷积神经网络提取关键帧中的空间维度特征,经通道融合机制在不同尺度的预测特征层进行通道...  相似文献   

4.
针对花样滑冰运动人体运动轨迹复杂、动作类型多样、普通人肉眼难以区分且常规的行为识别方法识别准确率低的问题,提出了一种基于时空图卷积网络与多通道注意力机制融合方法 (SAT-GCN)的花样滑冰动作识别算法。该算法首先将视频提取成连续的单独帧,使用OpenPose算法提取人体骨骼关键点数据,降低背景噪声干扰;然后使用时空图卷积算法对骨骼关键点数据进行动作分类。算法对时空图卷积算法进行改进,加入了多通道时空注意力机制融合模块,使得模型更加关注重要的关键点、时间帧片段、特征;使用时序卷积网络(TCN)提取人体骨架关键点在时间序列上的特征;使用SoftMax对提取后的特征进行动作分类。在花样滑冰数据集FSD-10和公开的人类行为数据集Kinetics-Skeleton上进行训练和测试,与改进前的时空图卷积网络(ST-GCN)进行对比,本文所提算法的预测准确率在2个数据集上均有所提升,验证了多通道注意力机制融合方法在花样滑冰选手动作检测任务中的有效性。  相似文献   

5.
针对在复杂情景下视频前背景分离技术中存在的前景泄露问题,设计开发了一个端对端的二级级联深度卷积神经网络,实现了对输入视频序列进行精确的前景和背景分离.所提网络由一级前景检测子网络和二级背景重建子网络串联而成.一级网络融合时间和空间信息,其输入包含2个部分:第1个部分是3张连续的彩色RGB视频帧,分别为上一帧、当前帧和下一帧;第2个部分是3张与彩色视频帧相对应的光流图.一级前景检测子网络通过结合2部分输入对视频序列中运动的前景进行精确检测,生成二值化的前景掩膜.该部分网络是一个编码器-解码器网络:编码器采用VGG16的前5个卷积块,用来提取两部分输入的特征图,并在经过每一个卷积层后对两类特征图进行特征融合;解码器由5个反卷积模块构成,通过学习特征空间到图像空间的映射,从而生成当前帧的二值化的前景掩膜.二级网络包含3个部分:编码器、传输层和解码器.二级网络能够利用当前帧和生成的前景掩膜对缺失的背景图像进行高质量的修复重建.实验结果表明,本文所提时空感知级联卷积神经网络在公共数据集上取得了较其他方法更好的结果,能够应对各种复杂场景,具有较强的通用性和泛化能力,且前景检测和背景重建结果显著超越多种现有方法.  相似文献   

6.
针对传统视频异常检测模型的缺点,提出一种融合全卷积神经(FCN)网络和长短期记忆(LSTM)网络的网络结构.该网络结构可以进行像素级预测,并能精确定位异常区域.首先,利用卷积神经网络提取视频帧不同深度的图像特征;然后,把不同的图像特征分别输入记忆网络分析时间序列的语义信息,并通过残差结构融合图像特征和语义信息;同时,采用跳级结构集成多模态下的融合特征并进行上采样,最终获得与原视频帧大小相同的预测图.所提网络结构模型在加州大学圣地亚哥分校(UCSD)异常检测数据集的ped 2子集和明尼苏达大学(UMN)人群活动数据集上进行测试,均取得了较好的结果.在UCSD上的等错误率低至6.6%,曲线下面积达到了98.2%,F_1分数达到了94.96%;在UMN上的等错误率低至7.1%,曲线下面积达到了93.7%,F_1分数达到了94.46%.  相似文献   

7.
针对已有注视点预测模型存在特征细节缺失、尺度单一和背景信息干扰严重导致的注视点预测精度偏低等问题,提出了一种基于超复数小波和图像空域的卷积网络融合注视点预测算法.首先,针对细节特征丢失问题,使用超复数小波变换在频域中提取图像的细节特征,与卷积网络提取的空域特征进行融合.然后,通过空洞空间金字塔池化模块,融合不同感受得到的特征图,有效解决了特征尺度单一的问题.最后,引入了残差卷积注意力模块,结合空间和通道的注意力机制,能够有效抑制背景信息的干扰,提高注视点预测精度.在SALICON数据集上,CC、sAUC和SIM评价指标下,该算法的性能达到0.884 7、0.769 3和0.778 0;在CAT2000数据集上,该算法在相应指标下的性能为0.735 5、0.870 1和0.664 5.主客观对比实验结果表明,该算法具有较好的注视点预测能力.  相似文献   

8.
车载动态场景下,为了提高基于视频手势识别的准确率和鲁棒性,提出了一种基于关键点的残差全连接网络手势识别算法.对在不同车辆平台、不同运动条件下采集的不同光照强度的视频数据进行归一化等预处理后提取视频帧的关键点,以关键点个数为准则进行了关键帧选取以提高运算性能和降低算法复杂度,将从关键帧中所提取的关键点送入残差全连接网络实现连续手势的识别.在不同光线与车内环境下,所提算法对6类动态手势的平均识别准确率达到96.72%,相较3D卷积神经网络(C3D)、卷积神经网络(convolutional neural network,简称CNN)、长短时记忆网络(long short-term memory network,简称LSTM)和双流网络,其识别率分别提升了10.72%,6.40%,5.17%和4.50%.实验结果验证了所提算法在车载环境下连续手势识别的有效性.  相似文献   

9.
针对视频目标检测领域中使用图像检测算法存在的速度与精度相互制约的问题,为充分利用目标在帧之间的运动信息,提出一种结合关联特征和卷积神经网络的视频检测方法.首先,当前视频帧使用图像检测算法提取特征,其次,利用两帧的关联特征预测当前帧的特征图,最后,使用关联特征中的运动信息来修正最终结果.本文的方法最终在ImageNet数据集上进行了实验,结果比当前方法获得了较好的精度提升,同时保持了较快的速度.  相似文献   

10.
基于便携式家用精子检测仪的研发需求,研究了轻量化卷积神经网络在精子活力检测方面的应用.利用Farneback光流算法提取出不同帧间距的精子视频的密集光流帧图像,并通过多通道图像叠加的方式将其与原始视频帧图像进行叠加.把叠加后的图像作为轻量化卷积神经网络ShuffleNet的输入图像,用于检测视频中精子的活力水平.实验结果表明:使用ShuffleNet能在基本不降低检测精度的前提下显著降低网络整体的计算量和模型所占用的内存,更适用于嵌入式和移动设备.此外,采用多通道叠加密集光流帧和原始帧图像作为输入图像,相较于单一的原始帧图像,有效提升了网络模型的性能.  相似文献   

11.
针对现有基于卷积神经网络跟踪中需要大量离线训练以及在线更新耗时的问题,提出了一种多特征融合的视频目标卷积跟踪算法。算法首先设计了一种浅层前向自学习卷积网络提取目标候选区域的局部卷积特征;然后计算融合了空间信息的颜色直方图特征;在此基础上,采用归一化加权方法在全连接层融合卷积特征和全局颜色特征形成目标的表观描述;最后基于粒子滤波算法,通过计算目标模板与候选目标之间的相似度,估计目标位置。采用OTB-2013公开测试集验证所提跟踪算法的性能,与8种主流目标跟踪算法进行了分析对比。实验结果表明,本文算法的目标跟踪精度和跟踪成功率在多种场景下取得了不错的性能,在保证跟踪精确率的前提下,跟踪鲁棒性优于其他算法。可见提出的多特征融合的卷积跟踪算法通过提取所跟踪视频的自身特征生成卷积器而无需进行大量离线训练,且与手动特征进行融合增强了目标的表达能力,这种策略具有一定的借鉴性。  相似文献   

12.
为了解决初步眼动追踪问题, 提出基于视频图像的实时性眼动追踪的快速算法。将RGB 色彩空间转换成YCbCr 空间, 利用肤色模型定位人脸。剪裁后, 用Sobel 算子边缘检测算法进行卷积处理, 对图像进行水平投影找到人眼大致位置, 对眼部进行粗定位。对该区域进行灰度投影, 分割左、右眼, 再分别对左、右眼进行定位, 从而得到人眼的精确定位。实验选取15 帧图片作为测试视频序列, 其结果表明, 该算法准确地解决了眼动追踪问题, 满足实时性要求。  相似文献   

13.
随着图像编辑软件的普及与完善,使得人们通过Copy-move操作便可伪造图像,而现有的Copy-move盲取证算法很难提取到彩色图像的一致性特征,且结果依赖于手动调节参数,难以定位到准确的篡改区域.为此,利用四元数卷积网络提取彩色图像空间一致性信息和双树复数小波提取图像局部信息的优势,提出了一种基于双树复数小波四元数卷积网络的Copy-move盲取证算法.首先,将图像表示为四元数并输入到四元数卷积网络中,提取彩色图像的颜色一致性特征,并将双树复数小波变换的高频子带与卷积网络的特征图联合学习图像的局部特征.其次,计算特征向量之间的相似性分数.然后,利用卷积网络提取较高分数的特征,定位相似区域,在一定程度上解决了匹配时手动调节参数的问题;并构建了一个仅定位粘贴区域的辅助分支来区分相似区域.最后,融合了相似和粘贴区域得到能够区分复制和粘贴位置的结果.在CoMoFoD和CASIA CMFD数据集上的主客观实验表明,该算法提升了Copy-move盲取证的定位性能.  相似文献   

14.
采用3D卷积神经网络模型,对脑电信号进行解码研究,旨在挖掘其深层的特征表达,以提高脑-机接口系统的性能.实验在获取"模拟阅读"脑-机接口系统的多维脑电信号后,将原始的通道特征构建成"脑电视频"的格式.其构造方法为:将通道按实际空间排布为二维矩阵,这样某时刻的多通道采样点在空间上形成一个"视频帧",这些空间信息在连续时间帧上的堆叠,形成"脑电视频".这种自然表达信息的方法,不仅包含大脑的空间分布信息,还反映了时间信息的关联,丰富了数据所包含的事件相关信息.借鉴图像领域特征学习的"局部感受野"和"权值共享"思想,搭建了自主学习脑电信号特征的3D卷积神经网络模型,将已打标签的脑电视频数据对模型进行训练,之后对测试集进行测试.与经典的卷积神经网络和传统的最佳单通道算法相比,分类正确率有了进一步的提高.实验表明,基于脑电视频的3D卷积神经网络能够更有效地学习脑电特征,改善了模拟阅读脑-机接口系统的性能.  相似文献   

15.
在路况视频帧的预测领域中,针对当前大部分模型所存在的预测图像分辨率低、图像模糊和局部细节缺失等问题,提出了一种应用残差生成对抗网络的路况视频帧预测模型(RB-GAN)。该模型用于在给定一段路况视频流的情况下更好地预测未来的一帧路况图像,应用多个级联的残差模块初步提取输入视频流的图像特征;利用感知网络强化对视频流中物体运动特征的提取;通过使用双重判别器提高生成对抗网络生成的图像的质量;用Adam方法来优化网络权值的深度学习过程。基于生成对抗网络这种半监督的学习框架,训练后的模型可以预测出一段路况视频流下一时刻的同输入视频流具有时空一致性的帧图像。应用车辆检测领域常用的KITTI数据集对生成对抗网络模型进行训练和测试,实验结果表明:与主要依赖于像素均值的方法相比,RB-GAN模型预测图像的分辨率提高了2~4倍,达到256像素×512像素,在图像锐度标准上提高了1~2个数量级,同时图像也更加符合人眼视觉的主观感受,所预测得到的路况视频帧图像质量更高,更具有实用性价值,可以更好地为诸如检测算法等其他下游算法提供有效的特征信息。  相似文献   

16.
基于计算机视觉的手语识别技术可以为聋校的双语教学带来很大的便利,而手语识别技术的难点之一在于视频关键帧的提取.根据手语视频关键帧的特点和手语者的手语习惯,提出了一种面向手语识别的视频关键帧提取和优化算法.首先利用卷积自编码器提取视频帧的深度特征,对其进行K-means聚类,在每类视频帧中采用清晰度筛选取出最清晰的视频帧...  相似文献   

17.
针对视频转文字(video to text)存在的建模复杂和准确率低的问题,提出了基于自适应帧采样算法和双向长短时记忆模型的视频转文字方法.自适应帧采样算法能够动态地调整采样率,以提供尽量多的特征来训练模型;结合双向长短时记忆模型,能有效学习视频中前面帧和未来帧的相关信息;同时,用于训练的特征是来自深度卷积神经网络的特征,使得这种双深度的网络结构能够学习视频帧在时空上的关联表示及全局依赖信息;帧信息的融合又增加了特征的种类,从而提升了实验效果.结果显示,在M-VAD和MPIIMD两个数据集中,文中的方法在METEOR中的评分均值分别为7.8%和8.6%,相对原S2VT模型分别提高了16.4%和21.1%,也提升了视频转文字的语言效果.  相似文献   

18.
提出一种基于高效视频编码(HEVC)的视频内容认证算法.根据图像纹理特征产生特征码,将特征码用于修改帧间8×8编码单元的分割模式、帧间预测模式和运动向量,并保留最佳的编码单元分割模式及相应的预测模式和运动向量.实验结果表明:该算法对视频质量影响很小,嵌入水印后码率的变化也很小;同时,该算法具有较好的脆弱性,可以用于视频认证.  相似文献   

19.
针对监控视频帧复制篡改,提出一种基于时空域特征的篡改检测算法.受空域局部二值模式(LBP)算子设计的启发,设计一种时域TCS-LBP算子,反映当前视频帧与其前后若干帧在同一空间位置像素之间的关系;然后在当前图像上逐点计算TCS-LBP特征值,构造能同时反映当前视频帧时域和空域特征的特征图像;利用特征图像,逐帧检测是否存在帧复制;对于初步检测到的篡改区域,再进行虚警和漏检的修正以及篡改边界的精确定位.实验结果表明,文中算法具有良好的性能,与现有的2种同类算法相比,性能明显提升.  相似文献   

20.
提出一种基于Mask R-CNN深度学习框架的满文文档版面分析方法,将满文文档版面分析问题转化为基于深度学习的图像实例分割问题。使用ResNet101网络和FPN网络构成的卷积神经网络自动提取满文文档图像特征,特征图经过RPN网络和RoI Align层生成新的特征图。新特征图经过全连接层完成感兴趣区域的类别和边框预测,并经过全卷积神经网络对感兴趣区域的像素进行分类得到mask预测,最终实现满文文档图像的实例分割。通过《新满汉大辞典》的文档图像构建了满文文档图像数据集,算法在该满文文档图像数据集上进行了实验。实验结果表明,本算法在满文文档版面分析中取得了较好的检测和分割效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号