首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 890 毫秒
1.
付燕  马钰  叶鸥 《科学技术与工程》2021,21(14):5855-5861
为解决当前视频描述任务中,生成描述视频的文本整体质量不高的问题,提出一种融合深度网络和视觉文本的视频描述模型.首先在编码阶段,将注意力机制引入3D残差模块,通过一维通道注意力与二维空间注意力增强视频特征映射,降低无关目标与噪声的影响;其次,解码阶段利用双层长短期记忆(long short-term memory,LSTM)深度网络的时序性特征,输出表述视频高层语义的文本描述;最后,为有效利用视觉文本信息丰富视频生成的语义描述,利用基于神经网络的主题模型提取出视频中的主题作为视觉文本融合进模型中.实验结果表明,本文方法在不同性能指标方面具有较好的准确性,能够更加准确地利用自然语言描述视频高层语义信息.  相似文献   

2.
针对数字视频的版权保护,提出了一种基于分块三维小波变换的视频水印算法,将视频信号分成三维图像块,根据人类视觉系统的特性,选择纹理复杂的运动块进行三维小波变换,对水印信息进行扩频CDMA编码后,将其嵌入到三维块的小波系数中,利用正交码的自相关函数特性来检测水印信息,实现水印的盲提取,实验结果表明,该水印方案在保证视频视觉质量的同时,对于针对视频水印的特殊攻击具有高鲁棒性。  相似文献   

3.
针对养殖监控视频中运动鱼体目标检测问题,提出一种基于视觉显著性计算的运动鱼体视频分割算法.首先,将运动特征通道引入基于图论的显著性计算模型中,对多通道特征进行自动加权,生成全局视觉显著图.其次,利用基于方向梯度直方图的支持向量机分类器对显著区域进行目标确认,得到包含前景目标的感兴趣区域.最后,分割出运动鱼体目标,并将其标注在视频序列中.实验结果表明,所提方法在室内养殖监控数据集上能够很好地剔除水面杂波、反光等复杂背景干扰,实现运动鱼体的视频分割.  相似文献   

4.
视觉注意力相关研究中,基于图像的视觉显著图预测研究较多,而针对视频的注视点序列预测研究相对较少.在充分考虑视频场景的动态特征与人眼视觉特性基础上,提出了一种同时利用视频底层与高层特征的注视点序列预测模型.使用隐马尔可夫模型(HMM)对注视点的转移序列进行建模,其中注视点的位置作为隐藏状态.首先,采用卷积神经网络(CNN)获得视频的视觉显著图,并将视频帧的显著值作为HMM的观测概率,表征注视点所在区域所能成功引起人视觉注意的程度;然后,使用视觉心理学中基于莱维飞行的眼跳概率模型对HMM状态的转移概率进行建模;最后,通过维特比算法推断整个视频最有可能产生的注视点序列.在HOLLYWOOD2数据集上进行视频的注视点序列预测实验,并和相关算法进行比较.实验结果表明:本文提出的模型的预测结果在Hausdorff距离与平均欧氏距离两项指标上都更优.  相似文献   

5.
基于高清数字视频对水印的要求,以及对H.264编码和现有的基于DCT变换视频水印算法的研究,提出一种基于DCT变换AC系数的自适应视频水印算法,自适应选择Ⅰ帧纹理块作为嵌入块;通过计算AC系数方差选择修改系数嵌入水印信息;为了减少水印嵌入量和增加水印鲁棒性,采用Arnold置乱和改进的秘密共享方案对水印进行预处理.该算法充分保证了水印的不可见性,同时具有一定的鲁棒性,具有一定的理论和实际应用价值.  相似文献   

6.
利用图像的小波变换获得的图像边缘特征信息,参考人类视觉系统(HVS)模型和小波图像的能量分布特性,将水印信息按小波图像的局部边缘特性,将水印信息嵌入到图像中,从而有效地隐藏水印。  相似文献   

7.
一种基于运动矢量的Mpeg 2视频数字水印的改进算法   总被引:8,自引:0,他引:8  
研究一种改进的基于运动矢量的Mpeg 2视频水印技术.利用Mpeg 2标准的压缩方法及视频流的特点,在分析Jordan提出的基于运动矢量的视频水印算法的基础上,结合人眼视觉特点,根据视频运动矢量的幅值大小和图像纹理均匀程度,选择在帧间编码块中嵌入水印的位置,在运动矢量中嵌入水印.仿真实验结果表明,新算法能更合理地将水印嵌入Mpeg 2视频流中,视频序列平均信噪比较原算法提高12%~21%,并且提取的水印要明显好于原算法.  相似文献   

8.
为了解决3D视频生成方法在获取深度线索方面的难题,使用显著图代替深度图进行3D视频生成。显著图和深度图在性质上有所不同,但是显著图是通过视觉注意力分析得到的,因此也可以给予人眼良好的感官体验。为了得到更适合进行视频内容转换的显著图,将时间信息融入到了深度学习模型当中。通过实验证明了本文方法在两个广泛使用的视频显著性数据集上拥有很好的表现力,所生成的3D内容也具有良好的视觉效果,证明了基于显著性检测的3D视频生成方法具有一定的可行性。  相似文献   

9.
随着深度学习技术的发展,利用卷积神经网络(CNN)提取视频帧特征,再用循环神经网络(RNN)生成句子的方法被广泛用于视频描述任务中.然而,这种直接转换方式忽略了很多视频内在信息,如视频序列的时序信息、运动信息及丰富的视觉元素信息等.为此,文中提出了一种基于自适应帧循环填充法的多模态视频描述(AFCF-MVC)模型;采用自适应特征提取法提取含有丰富时空信息和运动信息的视频C3D特征,使得C3D特征包含了整个视频序列所有帧的信息,并将其作为神经网络的输入;针对不同视频的标注句子长度不同问题,提出了自适应帧循环填充法,即根据标注句子的长度自适应地控制输入特征的个数,在保证句子输入完整的前提下为神经网络提供尽可能多的特征输入,并起到重复学习的作用;为了充分利用视频丰富的视觉元素信息,通过视觉检测器检测出视频帧的视觉元素信息,编码后作为额外的补充信息融合进AFCF-MVC模型中.在M-VAD和MPII-MD数据集上的实验结果显示,该模型既能准确地描述视频中的内容,也能在语法结构上模拟出人类语言的丰富性.  相似文献   

10.
为了解决密集型视频描述(dense video captioning, DVC)任务中视频特征利用不充分,视频定位分段不准确,语义描述效果不丰富的问题,采用多模注意力机制的密集型视频描述方法,提取视频中的视觉特征、音频特征和语音特征.通过多模注意力机制,在编码器中计算不同模态视频帧特征间的关联程度,在解码器中计算描述词序列特征与编码器输出的多模态视频帧特征间的关联程度,并将编码器、解码器输出特征分别作用于视频定位分段模型和语义描述模型获得视频分段和分段描述.提出的方法在ActivityNet Captions数据集上进行了理论分析和实验验证,其中F1-score达到60.09,METEOR指标达到8.78.该方法有效提高了视频定位分段和语义描述的准确性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号