首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为了解决密集型视频描述(dense video captioning, DVC)任务中视频特征利用不充分,视频定位分段不准确,语义描述效果不丰富的问题,采用多模注意力机制的密集型视频描述方法,提取视频中的视觉特征、音频特征和语音特征.通过多模注意力机制,在编码器中计算不同模态视频帧特征间的关联程度,在解码器中计算描述词序列特征与编码器输出的多模态视频帧特征间的关联程度,并将编码器、解码器输出特征分别作用于视频定位分段模型和语义描述模型获得视频分段和分段描述.提出的方法在ActivityNet Captions数据集上进行了理论分析和实验验证,其中F1-score达到60.09,METEOR指标达到8.78.该方法有效提高了视频定位分段和语义描述的准确性.  相似文献   

2.
为了解决多模态场景分类准确率不高的问题,文中提出一种由互编码器辅助视频的多模态场景分类方法。音频部分首先对输入音频数据进行特征提取并且使用自注意力机制取得关注信息,图像部分首先对视频进行分帧图片提取,然后通过ResNet50网络进行特征提取,随后提取到的双模态信息进入互编码器,互编码器通过提取各个模态隐层特征进行特征融合,融合后的新特征结合attention机制辅助视频特征。在该模型中,互编码器为融合特征的辅助系统。实验基于DCASE2021 Challenge Task 1B数据集进行验证,结果表明互编码器能够提升分类准确率。  相似文献   

3.
深度学习的快速发展给视频压缩感知重构提供了新思路。受网络模型限制,现有的基于深度学习的压缩感知重构方法不能充分利用视频的空时特征,且对于超过16帧的视频段重构效果不够理想。采用Transformer网络构建压缩感知重构网络,利用Transformer网络在序列信号处理方面的优势构建空时注意力提取模块,学习视频帧间的空时注意力特征,更好地实现对视频连续帧的建模,从而解决长跨度视频段压缩感知重构问题。实验结果表明:所提方法在处理32张视频帧的视频分段时,能达到30 dB以上的重构精度,在处理96张视频帧的视频分段时,仍能达到27 dB以上的良好性能。  相似文献   

4.
基于深度学习的监控视频树叶遮挡检测   总被引:2,自引:0,他引:2       下载免费PDF全文
结合稀疏自编码器的自动提取数据特征能力和深度置信网络较好的分类性能,提出一种基于深度学习的监控视频树叶遮挡检测方法。首先从视频中随机选取一帧图像,通过栈式稀疏自编码器主动学习视频图像的特征信息,然后采用深度置信网络建立分类检测模型,最后引入学习速率自适应调整策略对整个神经网络进行微调。该方法不需要对视频连续取帧,具有较好的图像特征主动学习能力,克服了人工提取特征能力有限的缺陷。实验结果表明,在样本量充足的条件下,使用本文方法进行监控视频树叶遮挡检测可以达到88.97%的准确率。  相似文献   

5.
针对现有会话型推荐模型难以准确捕获物品间全局依赖的问题,提出了一种基于双编码器的会话型推荐模型(SR-BE)。该双编码器由基于自注意力网络的全局编码器和基于图神经网络的局部编码器组成,无论被浏览物品之间的时间间隔长还是短,全局编码器都能够利用注意力机制自适应地捕获被浏览物品之间的全局依赖,并将其编码为全局隐向量。为弥补自注意力网络没有结构信息而难以捕获邻近物品间局部依赖的不足,在局部编码器中,首先将会话序列构建成会话图,然后通过图神经网络在会话图上捕获邻近物品间的局部依赖,并将其编码为局部隐向量。最后将从双编码器得到的全局隐向量和局部隐向量线性组合为会话表示,再通过预测层解码会话表示得到每个候选物品被点击的概率。实验结果表明:将基于自注意力网络的全局编码器与基于图神经网络的局部编码器结合在一起,比单一地使用全局编码器或局部编码器在命中率上分别提高了3.11%和6.55%。通过与同类模型客观定量比较,SR-BE模型在两个公开数据集上取得了突出的效果,表明该模型有效、可行。  相似文献   

6.
深度自编码器是异常检测领域中被广泛使用的深度学习模型.记忆增强的自编码器模型(Memory-augmented Autoencoder Model,MemAE)通过记忆增强模块解决传统自编码器泛化能力过强的问题,并取得了良好的效果.针对自编码器对于训练数据的正常模式提取能力有限这个问题,通过融合对抗自编码器(Adver...  相似文献   

7.
针对视频目标检测领域中使用图像检测算法存在的速度与精度相互制约的问题,为充分利用目标在帧之间的运动信息,提出一种结合关联特征和卷积神经网络的视频检测方法.首先,当前视频帧使用图像检测算法提取特征,其次,利用两帧的关联特征预测当前帧的特征图,最后,使用关联特征中的运动信息来修正最终结果.本文的方法最终在ImageNet数据集上进行了实验,结果比当前方法获得了较好的精度提升,同时保持了较快的速度.  相似文献   

8.
基于计算机视觉的手语识别技术可以为聋校的双语教学带来很大的便利,而手语识别技术的难点之一在于视频关键帧的提取.根据手语视频关键帧的特点和手语者的手语习惯,提出了一种面向手语识别的视频关键帧提取和优化算法.首先利用卷积自编码器提取视频帧的深度特征,对其进行K-means聚类,在每类视频帧中采用清晰度筛选取出最清晰的视频帧...  相似文献   

9.
异常流量检测现有方法大都是基于有监督的学习,在现实生活中获取并标记异常流量数据样本是极为困难的,存在诸多限制.此外,由于网络异常数据的多样性和复杂性,各种检测方法的自适应性较差,对新出现的异常流量难以判断.针对上述问题,本文设计了一个基于生成对抗网络和记忆增强模块的半监督异常流量检测框架MeAEG-Net(Memory Augment Based on Generative Adversarial Network),通过只训练正常流量样本数据,比较生成器模块输入流量底层特征的重构误差来达到检测异常的目的.在模型中使用生成对抗网络来更好地训练生成器,生成器采用自编码器加解码器的结构来解决自编码器易受噪声影响的问题,并在自编码器子网络中添加记忆增强模块来削弱生成器模块的泛化能力,增大异常流量的重构误差.实验证明,本文提出的方法能在只学习正常流量数据样本的前提下达到很好的异常流量检测效果.  相似文献   

10.
针对视频转文字(video to text)存在的建模复杂和准确率低的问题,提出了基于自适应帧采样算法和双向长短时记忆模型的视频转文字方法.自适应帧采样算法能够动态地调整采样率,以提供尽量多的特征来训练模型;结合双向长短时记忆模型,能有效学习视频中前面帧和未来帧的相关信息;同时,用于训练的特征是来自深度卷积神经网络的特征,使得这种双深度的网络结构能够学习视频帧在时空上的关联表示及全局依赖信息;帧信息的融合又增加了特征的种类,从而提升了实验效果.结果显示,在M-VAD和MPIIMD两个数据集中,文中的方法在METEOR中的评分均值分别为7.8%和8.6%,相对原S2VT模型分别提高了16.4%和21.1%,也提升了视频转文字的语言效果.  相似文献   

11.
网络中异常流量的有效检测对网络安全至关重要.以机器学习方法为主的异常流量检测技术,对流量数据采用特征选择方法进行降维并提取最优特征,但容易忽略数据特征之间的关联性,存在异常流量的检测率低、误报率高等问题.为了提高异常流量检测性能,论文在提取流量数据特征的过程中引入自注意力机制进行相关性学习,并结合深度卷积神经网络提出一种有效的网络流量异常检测模型.实验结果表明:通过引入自注意力机制,论文所提出的检测方法能够提取更准确的流量特征,并使得异常流量检测率高、误报率低.  相似文献   

12.
针对现如今监控摄像、卫星遥感以及视频娱乐等领域对视频图像的清晰度要求越来越高,而目 前大部分视频超分辨方法存在参数量大、恢复的视频存在抖动等问题,提出了一种多注意力结合光流的视频 超分辨方法,通过引入多个注意力包括空间注意力、通道注意力以及自注意力来提升超分辨性能。 具体而 言,作为一种特征加权的增强方法,这些注意力可以捕获视频帧的时空特征并增强自适应性和通道间的依赖 性,实现全局学习的功能;同时,提出双阶段特征对齐思路,首先利用光流对视频进行估计,进行第一阶段的 特征对齐,然后引入长短是记忆网络结构增强位置和通道的特征融合,进行第二阶段的特征对齐,以防止恢 复的视频帧出现抖动。 实验结果表明:该方法在评估标准和可视化效果方面都取得了令人满意的效果。  相似文献   

13.
提出一种基于注意力叠加与时序特征融合的目标检测方法.在端到端目标检测(DETR)网络的基础上,依据注意力机制特性,使用注意力权重叠加的方式提取目标物像素级标识,用于实例轨迹的划分.为使目标检测与轨迹跟踪协同作用,通过时序特征融合的方式融合之前轨迹跟踪信息,调整当前帧目标检测效果,从而充分利用视频载体提供的时间维度信息.在公开数据集上,对文中方法进行验证,结果表明:文中方法能有效识别被遮挡的目标物,具有较强鲁棒性.  相似文献   

14.
为了解决在背景相似的篮球视频中提取特征级运动信息不充分和捕获长时序依赖关系困难等问题,从局部和全局的角度出发,提出一种混合运动激励和时序增强网络(mixed motion excitation and temporal enhancement network,MTE-Net),该网络由在时间建模上互补的混合运动激励(mixed motion excitation,MME)模块和时序增强(temporal enhancement,TE)模块构成。混合运动激励模块通过计算短距离视频帧之间混合的特征级差分来充分表征局部运动信息,并显性地对运动敏感通道进行激励。时序增强模块对长距离视频帧使用自注意力机制来构建时序关联函数并捕获时序之间的全局依赖关系,增强视频中的重要帧序列。在不额外引入光流和过多参数的情况下,在SpaceJam篮球动作数据集上的实验结果表明,与其他主流的动作识别算法相比,所提模型对篮球运动员动作识别的准确率更高。  相似文献   

15.
针对已有视频关联跟踪方法无法准确提取关联动作轨迹, 导致视频关联动作跟踪结果出现较大偏差, 且跟踪速率较低的问题, 提出一种基于轨迹提取算法的视频关联动作跟踪方法. 首先, 根据多元组理念组建多元组轨迹提取模型, 划分运动视频图像特征分布矢量化集合, 计算视频图像分割支持向量机临界值; 其次, 通过颜色系统分离像素特征, 利用虚拟视景重构输出关联动作轨迹提取值; 再次, 在多粒度滤波器训练中设置预期输出值, 采用Fourier变换将卷积计算转变成点乘运算, 计算各粒度下边界最小矩形重叠率; 最后, 通过欧氏距离获得两个边界最小矩阵变换情况, 明确各粒度的轨迹波动程度, 完成视频关联动作跟踪全过程. 实验结果表明, 该方法的视频关联动作跟踪速率为14.9 帧/s, 能有效提高目标跟踪速率, 实现精准的视频关联动作跟踪.  相似文献   

16.
针对主流的视频动作识别算法对时序信息的挖掘不充分,而Transformer能够更好地处理长序列和全局依赖性问题,本文将3DCNN和Transformer结合起来,提出了基于稀疏Transformer的长短时序关联动作识别算法,从而实现对视频的全局时序信息进行建模。该算法提取预训练视频模型各个片段特征,嵌入视频特征聚类模块降低输入特征的潜在噪声,并利用基于稀疏自注意力的Transformer长短时序关联模块,引入稀疏掩码矩阵,对相似度矩阵进行掩码操作,抑制较小的注意力权重,选择性地保留重要的长短时序信息,提高模型对全局上下文信息的注意力集中程度。本文在UCF101和HMDB51数据集上进行了大量的实验,验证了本文算法的有效性,在参数量和计算复杂度较小的情况下准确率高于同类权威算法。  相似文献   

17.
视频摘要以简短的内容概括原始视频,是对原始视频的浓缩或者总结.传统的视频摘要方法有基于聚类的方法,通过视频帧的局部或全局特征将视频帧分成多个有代表性的集群,在每个集群中提取关键帧,最后去除冗余生成摘要;也有基于图模型的方法,将视频帧作为顶点,连接顶点的边表示帧间的关系,通过图的模块化信息提取关键帧.文章将聚类方法和图模...  相似文献   

18.
为了在有限的时间内产生质量可接受的视频摘要以达到在线使用的要求,提出一种基于视觉特征提取(visual features extraction,VFE)的压缩域视频摘要快速提取方法.从每帧输入视频中提取视觉特征,采用零均值归一化交叉相关(zero mean normalized cross correlation,ZNCC)指标检测有相似内容的视频帧组,为每组选择代表性帧,运用2个量化直方图过滤所选择的帧,从而避免视频摘要中可能的冗余或无意义帧.在视频检索国际权威评测(TREC video retrieval evaluation,TRECVID) 2007数据集上的实验结果表明,与基于聚类的高斯混合模型、基于熵的模糊C均值聚类和关键帧提取方法相比,该方法提取的视频摘要质量更高,且在时间和空间复杂度上具有明显优势,适合在线实时处理.  相似文献   

19.
针对正常和异常声音可能具有较大的相似性, 有时无法利用自编码器重构误差大小区分的问题, 提出一种生成对抗单分类网络方法进行异常声音检测, 通过多次训练, 该方法学习正常样本的分布特征. 在测试过程中, 测试正常样本能以极小的误差进行重构, 而异常样本重构效果较差, 在某些频率段会发生畸变, 从而给出判别分类结果. 实验采用UrbanSound8K公开数据集和实测电机声音数据集进行了测试, 获得该方法的准确率分别为86.3%和98.1%, 比卷积自动编码器等主要深度学习方法分别提高了5.0%和3.0%.  相似文献   

20.
针对高分辨率遥感影像中城市建筑物周围环境复杂多样,易被阴影遮挡,难以精细化提取的问题,提出一种改进的U-Net网络用于图像中的城市建筑物提取.该网络在标准U-Net网络的编码器末端嵌入双重注意力模块,可以通过捕获全局建筑物信息和长通道建筑物信息,实现建筑物特征的增强.在交叉熵损失函数的基础上加入Lovász损失函数,构成的复合损失函数增强了对建筑物提取结果的约束能力,进一步提高了模型的鲁棒性.将该模型在美国马萨诸塞州数据集上进行验证,提取建筑物的F1-score为87.83%.结果表明,本方法对高分辨率遥感影像中周围环境复杂多样、被阴影遮挡的城市建筑物具有较强的提取能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号