首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
视频修补的目的是基于视频帧之间的时空域上下文信息修补空洞.现有的方法由于不能准确地对运动轨迹进行建模经常导致修补结果无法保持良好的时空一致性.为此引入灵活的形状自适应网格作为基本处理单元,将网格流用于运动表示,提出了一个基于网格流的视频修补网络,通过先预测网络流再添补空洞区域的方式对视频进行修补.具体地,首先设计了一个...  相似文献   

2.
视频人眼关注预测是在视频中标注能够吸引人眼关注的感兴趣显著区域,对于自动提取大量视频的语义信息有着重要的应用.该研究从目前显著性处理主流算法全卷积网络的局限性出发,提出了一种基于时间-空间特征的深度学习模型用于预测视频中的人眼关注区域.首先,采用全卷积网络提取视频帧图像的空间特征,光流方法用于提取相邻帧之间的时间运动特征,通过长短期记忆网络处理当前帧与其前6帧的空间特征与时间特征,得到最终的人眼关注区域预测图.使用INB和IVB两个人眼关注视频数据库进行计算.实验结果表明,在地球移动距离、受试者工作特征曲线下面积、标准化扫描路径显著性、线性相关性等4个性能评估标准分别取得了0.375 1、0.818 6、2.024 1、0.745 7和0.413 7、0.785 6、1.964 5、0.734 9的结果,预测性能优于5种对比算法,表明本文方法在视频人眼关注预测上能够取得较准确的结果.  相似文献   

3.
针对视频会话业务的实时性需求,提出一种轻量级深度学习网络模型实现视频图像的实时背景替换功能.网络模型包含语义分割和背景替换两个模块.语义分割模块整体架构采用编解码结构,编码端使用编码器模块、空洞卷积金字塔池化模块、注意力模块以及增益模块提取特征;解码端使用解码器模块、调整模块以及编码器模块恢复图像,再传入背景替换模块完成背景替换.该网络模型在本文设定的数据集训练后分割精确度达到94.1%,分割速度达到42.5帧/s,在实时性和准确性上达到较好的平衡,具有很好的实用效果.  相似文献   

4.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.  相似文献   

5.
为解决现有视频摘要方法的视频帧特征信息提取不充分、摘要结果过分依赖单一特征的问题,提出了一种融合时空切片和双注意力机制的视频摘要方法。在原视频的精准分段阶段,提出了基于时空切片的核时序分割算法(STS-KTS),将视频场景信息反映为时空切片纹理信息,采用水平映射法将预处理后的时空切片投影为一维数组,作为KTS的输入特征;以双注意力机制和分组卷积为基本组件,结合BiLSTM构建时空特征提取网络,以快速提取丰富的时空特征信息,从而配合纹理特征信息消除现有摘要模型对单一特征的过分依赖;采用帧参数预测模块获取最佳的视频帧贡献度分数、中心度分数以及帧序列位置;将帧分数转化为镜头分数,以选取内容丰富的片段,进而生成动态视频摘要。在SumMe和TVSum数据集上的实验表明:所提方法能提高生成摘要的准确性,比现有方法性能更高,尤其在SumMe数据集上的生成摘要准确性相比于现有方法提升了0.58%。  相似文献   

6.
深度学习的快速发展给视频压缩感知重构提供了新思路。受网络模型限制,现有的基于深度学习的压缩感知重构方法不能充分利用视频的空时特征,且对于超过16帧的视频段重构效果不够理想。采用Transformer网络构建压缩感知重构网络,利用Transformer网络在序列信号处理方面的优势构建空时注意力提取模块,学习视频帧间的空时注意力特征,更好地实现对视频连续帧的建模,从而解决长跨度视频段压缩感知重构问题。实验结果表明:所提方法在处理32张视频帧的视频分段时,能达到30 dB以上的重构精度,在处理96张视频帧的视频分段时,仍能达到27 dB以上的良好性能。  相似文献   

7.
在路况视频帧的预测领域中,针对当前大部分模型所存在的预测图像分辨率低、图像模糊和局部细节缺失等问题,提出了一种应用残差生成对抗网络的路况视频帧预测模型(RB-GAN)。该模型用于在给定一段路况视频流的情况下更好地预测未来的一帧路况图像,应用多个级联的残差模块初步提取输入视频流的图像特征;利用感知网络强化对视频流中物体运动特征的提取;通过使用双重判别器提高生成对抗网络生成的图像的质量;用Adam方法来优化网络权值的深度学习过程。基于生成对抗网络这种半监督的学习框架,训练后的模型可以预测出一段路况视频流下一时刻的同输入视频流具有时空一致性的帧图像。应用车辆检测领域常用的KITTI数据集对生成对抗网络模型进行训练和测试,实验结果表明:与主要依赖于像素均值的方法相比,RB-GAN模型预测图像的分辨率提高了2~4倍,达到256像素×512像素,在图像锐度标准上提高了1~2个数量级,同时图像也更加符合人眼视觉的主观感受,所预测得到的路况视频帧图像质量更高,更具有实用性价值,可以更好地为诸如检测算法等其他下游算法提供有效的特征信息。  相似文献   

8.
针对在复杂情景下视频前背景分离技术中存在的前景泄露问题,设计开发了一个端对端的二级级联深度卷积神经网络,实现了对输入视频序列进行精确的前景和背景分离.所提网络由一级前景检测子网络和二级背景重建子网络串联而成.一级网络融合时间和空间信息,其输入包含2个部分:第1个部分是3张连续的彩色RGB视频帧,分别为上一帧、当前帧和下一帧;第2个部分是3张与彩色视频帧相对应的光流图.一级前景检测子网络通过结合2部分输入对视频序列中运动的前景进行精确检测,生成二值化的前景掩膜.该部分网络是一个编码器-解码器网络:编码器采用VGG16的前5个卷积块,用来提取两部分输入的特征图,并在经过每一个卷积层后对两类特征图进行特征融合;解码器由5个反卷积模块构成,通过学习特征空间到图像空间的映射,从而生成当前帧的二值化的前景掩膜.二级网络包含3个部分:编码器、传输层和解码器.二级网络能够利用当前帧和生成的前景掩膜对缺失的背景图像进行高质量的修复重建.实验结果表明,本文所提时空感知级联卷积神经网络在公共数据集上取得了较其他方法更好的结果,能够应对各种复杂场景,具有较强的通用性和泛化能力,且前景检测和背景重建结果显著超越多种现有方法.  相似文献   

9.
针对利用传统光流传递关键帧颜色信息的视频彩色化方法计算耗时问题,以及全局传递颜色的视频彩色化方法导致欠饱和度问题,提出基于像素流的视频彩色化方法.首先,将参考帧与目标帧转换到Lab颜色空间中,利用其亮度通道通过一个深度学习网络得到像素流,该像素流中的数值指示了目标帧的颜色在参考帧中的位置;然后,利用该像素流对参考帧颜色...  相似文献   

10.
针对全移动传感器网络覆盖空洞的修复以及网络寿命最大化问题,研究并设计了一种基于可信信息覆盖模型的传感器节点重定位协议。该协议在可信信息覆盖模型下的信息网格的概念下,设计一种局部信息网格结构,通过使用移动最近的冗余传感器节点修复覆盖空洞区域来维持网络的完全覆盖。仿真结果表明,所设计的协议与现有的协议传感器节点重定位协议相比,可以有效减少重定位的移动能量消耗,明显提升全移动传感器网络的工作寿命。  相似文献   

11.
针对隐写载体为视频的特点,提出了一种新的基于帧内预测模式修改的H.264视频隐写算法.算法通过改进的局部二值模式方法选择所要嵌入区域,判断嵌入块的帧内预测模式,并将嵌入块分组,然后将与Logistic映射产生的混沌序列处理后的秘密信息经过预定的嵌入规则进行隐写,通过拉格朗日率失真优化算法改变帧内预测模式.实验结果表明,算法具有较好的视觉不可见性以及较高的嵌入效率,并且隐写后比特率增加量较小,同时具有较高的嵌入容量.  相似文献   

12.
基于便携式家用精子检测仪的研发需求,研究了轻量化卷积神经网络在精子活力检测方面的应用.利用Farneback光流算法提取出不同帧间距的精子视频的密集光流帧图像,并通过多通道图像叠加的方式将其与原始视频帧图像进行叠加.把叠加后的图像作为轻量化卷积神经网络ShuffleNet的输入图像,用于检测视频中精子的活力水平.实验结果表明:使用ShuffleNet能在基本不降低检测精度的前提下显著降低网络整体的计算量和模型所占用的内存,更适用于嵌入式和移动设备.此外,采用多通道叠加密集光流帧和原始帧图像作为输入图像,相较于单一的原始帧图像,有效提升了网络模型的性能.  相似文献   

13.
视频超分辨率(VSR)的任务是利用序列视频帧具有的时间连续性和空间相似性提高视频的分辨率。主流的VSR方法利用像素损失优化网络,导致生成的超分辨率(SR)重建结果边缘模糊、细节平滑。为此,提出了一个新的引入时空特征补偿和多特征鉴别器的端到端的VSR网络框架MC-PETGAN。该框架包括光流估计补偿网络和多特征鉴别生成对抗网络。光流估计补偿网络利用相邻视频帧之间的短时连续和内容相似性特征为多特征鉴别生成对抗网络提供有效丰富的细节信息;生成器与包括像素、边缘和纹理鉴别器的多特征鉴别器的对抗训练促使SR帧与高分辨率(HR)帧的像素、边缘和纹理趋于一致。大量公共数据集和监控视频数据的实验结果表明,该文方法能够有效提高视频SR结果的像素精度,并恢复出清晰的边缘和纹理,而且视觉感受愉快,感知指标有竞争力。  相似文献   

14.
将深度卷积神经网络引入网格质量评价问题有望代替网格工程师完成繁杂的网格质量评价工作,节省计算流体力学数值模拟的人力成本,但现有方法的准确率和效率仍需要提高.因此,本文提出一种基于卷积注意力网络的网格质量评价方法.首先,本文提出在轻量级卷积神经网络模型中嵌入通道注意力的方式以同时提升准确率和效率;其次,设计了一个神经网络模型CANet用于网格质量评价任务;最后,通过Z-Score标准化对数据进行预处理,解决输入数据分布不一致的问题,以进一步提升准确率.实验结果表明,与现有方法相比,CANet可以达到更优的准确率97.06%,并且在效率上也有至少34.9%的提升.  相似文献   

15.
为提高运动目标的检测与跟踪处理速度,设计了一个基于网格计算的解决方案,应用网格计算以分布并行方式来处理图像序列. 网格计算节点上执行的一个任务对应处理图像序列中的一个帧图像单元,一个帧图像单元包含了每次处理过程中所涉及的一帧或多帧图像,因而网格计算中的任务数即为图像序列中的帧图像单元数. 利用Condor系统搭建了一个网格计算试验台,开发了一个用户交互界面和若干中间件服务模块. 以基于相邻帧差法和模板匹配法的运动背景下的目标检测和跟踪算法为例进行了试验. 试验结果表明,该方案具有可行性,并能大幅度缩减计算时间,提高处理效率.   相似文献   

16.
面对不断进步的图像编辑技术,发展相应的图像取证技术显得尤为重要.针对现有图像篡改检测技术中存在的可检测操作类型单一、鲁棒性不强、篡改区域定位不足等问题,提出一种基于卷积神经网络的多操作图像篡改检测方案.在该网络中,通过构造基于残差块的卷积流以提取操作特征.然后,设计一个多尺度特征融合模块,实现不同尺寸的操作特征融合.最后,将融合后的操作特征输入多分支预测模块进行篡改类型预测与定位,得到多操作检测结果.本文制作了多操作图像篡改数据集,对提出的网络模型进行训练和测试.实验结果表明,本文方案与主流的目标检测网络相比,能够更准确地对篡改区域进行定位,参数量更少,且对常见的图像后处理具有更好的鲁棒性.  相似文献   

17.
为改善图像中遮挡和小尺寸行人的检测精度,提出一种基于语义分割注意力和可见区域预测的行人检测方法.具体地,在SSD(single shot multi-box detector)目标检测网络的基础上,首先优化SSD的超参数设置,使其更适于行人检测;然后在主干网络中引入基于语义分割的注意力分支来增强行人检测特征的表达能力;最后提出一种检测预测模块,它不仅能同时预测行人整体和可见区域,还能利用可见区域预测分支所学的特征去引导整体检测特征的学习,提升检测效果.在Caltech行人检测数据集上进行了实验,所提方法的对数平均缺失率为5.5%,与已有方法相比具有一定的优势.  相似文献   

18.
视频动作检测研究是在动作识别的基础上进一步获取动作发生的位置和时间信息.结合RGB空间流和光流时间流,提出了一种基于SSD的区域时空二合一动作检测网络.改进了非局部时空模块,在光流中设计了像素点筛选器来提取运动关键区域信息,只对空间流中筛选出的动作关键区域进行相关性计算,有效获得动作长距离依赖并改善非局部模块计算成本较...  相似文献   

19.
可伸缩视频编码(scalable video coding,SVC)可以有效地将视频的码流通过不同网络传输给不同的用户.通过对一个帧组(GOP)中所有宏块的尺寸和运动情况进行分析,提出了等效均方误差(Eq-MSE)方法,以此计算视频不抖动的最小帧率,再根据网络的带宽,确定提取子流的时间和空间增强层的层数.这种基于视频内容的子流提取方法,有效地弥补了当前视频编码不考虑视频内容这一不足,在一定带宽下,使视频的解码质量达到最优.对比于不考虑视频内容的方法,提出的自适应子流提取方法使重建的视频峰值信噪比在一定比特率下显著改善.  相似文献   

20.
网络视频质量包层评估模型研究   总被引:2,自引:0,他引:2  
为了实现对网络视频质量的实时监测,提出一种包层视频质量评估模型.该模型无需对视频载荷信息进行解码,只通过分析视频包头信息评估网络视频的质量.首先,分析包头信息获取压缩码率、帧率、每帧编码比特数、丢包数目和丢包位置等信息,利用压缩码率和Ⅰ帧的平均编码比特数预测视频内容的运动特性,在此基础上结合视频帧编码类型及视频内容运动特性预测视频流的编码失真和丢包失真并最终建立包层质量评估模型.实验结果表明,相比国际标准G.1070模型和G.1070增强模型中的视频质量评价方法,通过该模型得到的视频质量与视频主观质量的皮尔森相关系数分别平均提高了0.087和0.065,同时均方根误差降低了0.219和0.164.该模型具有良好的性能,可以准确地评价网络视频质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号