首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
递归神经网络(RNN)和长短时记忆(LSTM)在处理顺序多媒体数据方面取得显著成就。因此,提出了一种双向长短时记忆的递归神经网络(DLSTM),该方法结合了卷积神经网络(CNN)和递归神经网络的动作识别新方法。首先,利用CNN提取视频的深度特征,构建视频特征模型,以减少冗余和复杂性。然后,利用递归神经网络学习帧特征之间的序列信息。该方法具有学习长序列的能力,能够在一定的时间间隔内通过分析特征来处理较长的视频。实验结果与现有的方法比较,该方法在动作识别方面有明显完善。  相似文献   

2.
采用多种深度线索获取二维视频深度,可以提高视频深度提取效果.针对运动线索,通过块匹配运动估计算法获得帧间深度信息;针对帧内线索,采用Laws滤波器提取深度特征,然后利用马尔可夫随机场模型训练获得帧内深度信息;在此基础上,提出了基于信息融合的二维视频深度提取方法.该方法首先通过计算背景和运动区域的信息熵,然后利用模式识别中的Neyman Pearson准则确定视频帧的运动区域.针对该区域,在帧内深度信息获取的基础上,融合帧间深度信息.实验结果和真实深度比较,证实了该方法的有效性.  相似文献   

3.
提出了一种新的基于分块的视频压缩感知算法,可以将视频采集和压缩编码有机结合起来同时进行. 为利用视频时间轴上的冗余,对参考帧和非参考帧使用不同的采样策略:对于参考帧,先进行分块然后进行常规的压缩感知采样;对于非参考帧,将分块后和参考帧对应块作比较然后调整采样策略. 非参考帧的采样可以为参考帧提供更多的信息,使得在采样数目很少的情况下得到更高的视频质量. 同时算法可以根据视频帧内部的纹理复杂程度自适应地调整采样速率,优化资源配置. 实验结果表明,相对于一般的压缩采样算法,本算法使用比以往算法少20%以上的采样值,得到的结果既符合人眼观察又有最高的信噪比.   相似文献   

4.
随着深度学习技术的发展,利用卷积神经网络(CNN)提取视频帧特征,再用循环神经网络(RNN)生成句子的方法被广泛用于视频描述任务中.然而,这种直接转换方式忽略了很多视频内在信息,如视频序列的时序信息、运动信息及丰富的视觉元素信息等.为此,文中提出了一种基于自适应帧循环填充法的多模态视频描述(AFCF-MVC)模型;采用自适应特征提取法提取含有丰富时空信息和运动信息的视频C3D特征,使得C3D特征包含了整个视频序列所有帧的信息,并将其作为神经网络的输入;针对不同视频的标注句子长度不同问题,提出了自适应帧循环填充法,即根据标注句子的长度自适应地控制输入特征的个数,在保证句子输入完整的前提下为神经网络提供尽可能多的特征输入,并起到重复学习的作用;为了充分利用视频丰富的视觉元素信息,通过视觉检测器检测出视频帧的视觉元素信息,编码后作为额外的补充信息融合进AFCF-MVC模型中.在M-VAD和MPII-MD数据集上的实验结果显示,该模型既能准确地描述视频中的内容,也能在语法结构上模拟出人类语言的丰富性.  相似文献   

5.
视频帧插值是指利用运动补偿插值或者基于深度学习的视频帧合成并且插入到视频,属于视频特有的时域操作.传统的视频帧插值和深度视频帧插值都可以用于提升视频帧率上转,也可能用于提升虚假的视频码率,以吸引用户访问.系统地综述视频帧插值的被动检测技术.首先,分析视频帧插值技术的帧合成机理,尤其突出深度视频帧插值技术,包括其采用的深度网络模型及其特点,以挖掘遗留的细微痕迹.然后,从篡改手段和遗留痕迹的角度,总结基于手工特征和基于深度学习的视频帧插值被动检测的典型方法,并且从采用的特征和优缺点的角度进行比较.最后,指出视频帧插值篡改检测领域在深度学习时代存在的技术挑战和未来的发展趋势.  相似文献   

6.
贺凤      张洪博      杜吉祥      汪冠鸿     《华侨大学学报(自然科学版)》2020,(6):808-815
提出一种长短时记忆网络的自由体操视频自动描述方法.在视频描述模型S2VT中,通过长短时记忆网络学习单词序列和视频帧序列之间的映射关系.引入注意力机制对S2VT模型进行改进,增大含有翻转方向、旋转度数、身体姿态等关键帧的权重,提高自由体操视频自动描述的准确性.建立自由体操分解动作数据集,在数据集MSVD及自建数据集上进行3种模型的对比实验,并通过计划采样方法消除训练解码器与预测解码器之间的差异.实验结果表明:文中方法可提高自由体操视频自动描述的精度.  相似文献   

7.
视频人眼关注预测是在视频中标注能够吸引人眼关注的感兴趣显著区域,对于自动提取大量视频的语义信息有着重要的应用.该研究从目前显著性处理主流算法全卷积网络的局限性出发,提出了一种基于时间-空间特征的深度学习模型用于预测视频中的人眼关注区域.首先,采用全卷积网络提取视频帧图像的空间特征,光流方法用于提取相邻帧之间的时间运动特征,通过长短期记忆网络处理当前帧与其前6帧的空间特征与时间特征,得到最终的人眼关注区域预测图.使用INB和IVB两个人眼关注视频数据库进行计算.实验结果表明,在地球移动距离、受试者工作特征曲线下面积、标准化扫描路径显著性、线性相关性等4个性能评估标准分别取得了0.375 1、0.818 6、2.024 1、0.745 7和0.413 7、0.785 6、1.964 5、0.734 9的结果,预测性能优于5种对比算法,表明本文方法在视频人眼关注预测上能够取得较准确的结果.  相似文献   

8.
针对传统视频异常检测模型的缺点,提出一种融合全卷积神经(FCN)网络和长短期记忆(LSTM)网络的网络结构.该网络结构可以进行像素级预测,并能精确定位异常区域.首先,利用卷积神经网络提取视频帧不同深度的图像特征;然后,把不同的图像特征分别输入记忆网络分析时间序列的语义信息,并通过残差结构融合图像特征和语义信息;同时,采用跳级结构集成多模态下的融合特征并进行上采样,最终获得与原视频帧大小相同的预测图.所提网络结构模型在加州大学圣地亚哥分校(UCSD)异常检测数据集的ped 2子集和明尼苏达大学(UMN)人群活动数据集上进行测试,均取得了较好的结果.在UCSD上的等错误率低至6.6%,曲线下面积达到了98.2%,F_1分数达到了94.96%;在UMN上的等错误率低至7.1%,曲线下面积达到了93.7%,F_1分数达到了94.46%.  相似文献   

9.
中文分词是中文自然语言处理中的关键基础技术之一.目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作.基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能.文中基于深度学习中的双向长短时记忆(BLSTM)神经网络模型对中文分词进行了研究.首先从大规模语料中学习中文字的语义向量,再将字向量应用于BLSTM模型实现分词,并在简体中文数据集(PKU、MSRA、CTB)和繁体中文数据集(HKCity U)等数据集上进行了实验.实验表明,在不依赖特征工程的情况下,基于BLSTM的中文分词方法仍可取得很好的效果.  相似文献   

10.
本文主要研究自监督学习方法在视频目标分割中的应用。首先通过挖掘大规模无标注视频数据中的时间-空间关系,让神经网络作为特征编码器学习视频帧之间的相似性和连续性;然后通过记忆力机制训练网络,使其对当前帧和多个参考帧之间的关系进行建模;利用特征编码器学习到的特征对视频帧中的分割目标进行重建,进行下游的视频目标分割任务;最后,利用在线自适应模块对视频分割结果的错误进行修正。实验结果表明,本文的自监督方法在视频分割任务上的表现可以更加接近有监督方法的分割结果,采用记忆力机制和在线自适应模块可以大大提高视频目标分割的准确性。另外本文探究了数据有效性,当采用少量数据进行网络的自监督训练时,模型仍能取得较好的效果,意味着这个任务本身不需要大规模数据集中富含的复杂语义信息进行建模。  相似文献   

11.
通过将空间及时序信息有效结合, 提出基于双帧图模型的单目视频物体分割算法。首先, 通过手工交互得到初始帧的分割, 并据此训练获取前景物体及背景的颜色模型。然后, 利用双帧图模型融合当前帧的颜色信息以及由颜色差得到的空间和时序约束。根据观测到的颜色差异与物体运动的线性关系, 提出运动自适应的时序约束因子, 它能够随视频中物体运动变化自适应地调节。最后, 通过二值图割法计算当前帧的分割结果并更新颜色模型。利用双帧图模型可循序地对视频中的下一帧进行分割。实验结果证实, 提出的自适应时序约束因子可以提高物体分割结果的准确性和时序一致性, 量化指标表明此算法在视频物体分割中可获得更优结果。  相似文献   

12.
针对新闻视频中的文字区域检测定位问题,研究了如何快速有效地检测新闻视频中的文字区域,用以实现自动视频检索。为克服视频中文字大小不一的难题,根据视频图像中文字区域特征有别于背景区域的特点,提出了一种基于多尺度图像融合的新闻视频文字区域检测定位算法。算法主要采用训练和学习两个步骤,首先对人为收集的含字符样本与不含字符样本进行小波特征和局部二值模式等特征提取,并完成SVM分类器训练,获取分类器;然后对测试视频帧进行多尺度的遍历检测,并融合检测结果,获取每帧的文字区域。实验结果表明,与前人提出的基于边缘检测的方法相比,算法具有明显优越性,在定位准确度上有较大提高,同时还能克服视频帧之间的快速变换,具有一定的实用意义。  相似文献   

13.
一种新的自适应镜头边界检测算法   总被引:2,自引:0,他引:2  
针对镜头边界检测中存在的检测效果和检测阈值依赖人工经验的问题,提出了一种新的自适应镜头边界检测算法.该算法以视频帧窗口中亮度帧差到帧差均值的距离作为切变检测特征,根据该距离值的变化程度自动选取切变最优化阈值;以视频帧序列中的颜色帧差为渐变检测特征,对该帧差进行数量级量化,直接利用量化结果判定渐变,实现了镜头检测的自适应.实验结果表明,该算法对切变的查准率和查全率分别为96.74%和97.41%,对渐变的查准率和查全率分别为92.34%和89.67%,对于不同类型的视频检测效果稳定.  相似文献   

14.
将深度学习应用于行人重识别领域,嵌入多尺度注意力融合模块至神经网络中进行多尺度特征提取和表示,可有效提升注意力机制对深度学习网络的识别性能。提出了一种基于SE block的多尺度通道注意力融合模块,并结合ResNet50卷积神经网络提取特征;然后通过双向LSTM网络进一步提取特征序列上下文信息,在提高模型对图像重要特征的提取能力的同时,降低对图像冗余特征的关注度;最后使用级联难采样三元组损失函数和交叉熵损失函数共同训练网络模型,使样本能够在高维特征空间中实现聚类,进一步提升模型识别准确性。所提出算法在Market1501数据集和CUHK03数据集分别进行实验,并在同等条件下和其他注意力模块算法进行比较。为进一步验证各模块作用,对算法进行消融实验,以验证各模块的有效性,实验结果表明,所提出方法可有效应用于行人重识别  相似文献   

15.
基于深度学习的监控视频树叶遮挡检测   总被引:2,自引:0,他引:2       下载免费PDF全文
结合稀疏自编码器的自动提取数据特征能力和深度置信网络较好的分类性能,提出一种基于深度学习的监控视频树叶遮挡检测方法。首先从视频中随机选取一帧图像,通过栈式稀疏自编码器主动学习视频图像的特征信息,然后采用深度置信网络建立分类检测模型,最后引入学习速率自适应调整策略对整个神经网络进行微调。该方法不需要对视频连续取帧,具有较好的图像特征主动学习能力,克服了人工提取特征能力有限的缺陷。实验结果表明,在样本量充足的条件下,使用本文方法进行监控视频树叶遮挡检测可以达到88.97%的准确率。  相似文献   

16.
作为一种快速浏览和理解视频内容的方式,视频摘要技术引起了广泛的关注.本文将视频摘要任务看作是序列到序列的预测问题,设计了一种新颖的基于解码器的视觉注意力机制,并基于此提出一种有监督视频摘要算法.所提方法考虑到视频帧之间的内在关联性,利用长短时记忆网络将注意力集中在历史的解码序列,融合历史的解码信息有效地指导解码,提升模型预测的准确性.所提算法主要在TVSum和Sum Me数据集上进行了大量实验,验证了其有效性及先进性.  相似文献   

17.
根据视频中距离越近运动尺度越大的原理,物体的运动包含了提取2D视频深度的最有效信息.然而自然视频中,物体运动存在加速度,物体在同样深度情况下,运动时大时小,结果将导致通过运动估计提取的深度存在不连续性.根据物体运动连续性的特点,同一物体在不同帧中的深度变化也存在连续性.提出一种基于运动估计的2D转3D深度滤波算法.该算法中,以高斯滤波为基础,并采用相似度作为权重,自适应地修改高斯滤波器的参数,实现了自适应的高斯滤波.实验结果表明,采用该算法有效地减小了运动估计误差,平滑了深度序列,提高了深度序列的准确性和合理性.  相似文献   

18.
采用3D卷积神经网络模型,对脑电信号进行解码研究,旨在挖掘其深层的特征表达,以提高脑-机接口系统的性能.实验在获取"模拟阅读"脑-机接口系统的多维脑电信号后,将原始的通道特征构建成"脑电视频"的格式.其构造方法为:将通道按实际空间排布为二维矩阵,这样某时刻的多通道采样点在空间上形成一个"视频帧",这些空间信息在连续时间帧上的堆叠,形成"脑电视频".这种自然表达信息的方法,不仅包含大脑的空间分布信息,还反映了时间信息的关联,丰富了数据所包含的事件相关信息.借鉴图像领域特征学习的"局部感受野"和"权值共享"思想,搭建了自主学习脑电信号特征的3D卷积神经网络模型,将已打标签的脑电视频数据对模型进行训练,之后对测试集进行测试.与经典的卷积神经网络和传统的最佳单通道算法相比,分类正确率有了进一步的提高.实验表明,基于脑电视频的3D卷积神经网络能够更有效地学习脑电特征,改善了模拟阅读脑-机接口系统的性能.  相似文献   

19.
客流观测数据的非平稳性和选择学习参数的主观性,是影响双向长短时记忆神经网络(Bidirectional Long Short-Term Memory, BiLSTM)预测公交站点短时客流精度的重要因素.通过自适应噪声完备集合经验模态分解(Complete Ensemble Empirical Mode Decomposition With Adaptive Noise, CEEMDAN)提升客流观测数据的平稳性,用粒子群算法(Particle Swarm Optimization,PSO)优化BiLSTM隐藏层神经元个数、学习率与训练次数;基于Theano和Tensorflow深度学习库Keras,构建了公交站点短时客流预测组合模型CEEMDAN-PSO-BiLSTM,用均方根误差与平均绝对误差进行预测精度检验,并在浙江省海宁市2个公交站点进行了应用.研究结果表明:客流预测精度由高到低依次为CEEMDAN-PSO-BiLSTM、CEEMDAN-BiLSTM、PSO-BiLSTM、BiLSTM和LSTM,2个站点CEEMDAN-PSO-BiLSTM比BiLSTM预测结果的均方根误差分别下...  相似文献   

20.
为了增强语句内关键信息和语句间交互信息的表征能力,有效整合匹配特征,提出一种融合多路注意力机制的语句匹配模型。采用双向长短时记忆网络获取文本的编码信息,通过自注意力机制学习语句内部的关键信息;将编码信息和自注意力信息拼接之后,通过多路注意力机制学习语句间的交互信息;结合并压缩多路注意力层之前和之后的信息,通过双向长短时记忆网络进行池化获得最终的语句特征,经过全连接层完成语句匹配。实验结果表明,该模型在SNLI和MultiNLI数据集上进行的自然语言推理任务、在Quora Question Pairs数据集上进行的释义识别任务和在SQuAD数据集上进行的问答语句选择任务中均表现出了更好效果,能够有效提升语句匹配的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号