首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
在计算机视觉领域中,大多数的视频表示方法都是有监督的,需要大量带有标签的训练视频集,但标注大量视频数据会花费极大的人力和物力.为了解决这个问题,提出了一种基于深度神经网络的无监督视频表示方法.该方法利用改进的稠密轨迹(iDT)算法提取的视频块交替地训练深度卷积神经网络和特征聚类,得到可提取视频特征的深度卷积神经网络模型;通过视频的中层语义特征,实现了无监督视频表示.该模型在HMDB 51行为识别数据库和CCV事件检测数据库上分别进行了动作识别和事件检测的实验,获得了62.6%的识别率和43.6%的检测率,证明了本文方法的有效性.  相似文献   

2.
针对现有的人体行为识别方法中易受到噪声、光照以及复杂背景等因素的影响,同时,未充分考虑到人体交互区域的作用。提出一种结合普通彩色视频和深度信息的人体行为识别方法。首先,对于识别中提取人体运动目标时,利用深度图中物体表面法向量提取运动目标的边缘;同时结合加权累计帧差法获取运动模板。其次,结合深度连续性提取非人体区域(人体与动作的交互区域)并进行描述,作为人体行为表示的一部分。最后利用支持向量机(support vector machine)进行训练和识别。实验部分在CAD-120数据集中测试,通过与一些现有的人体行为识别方法相比较,动作识别准确率提高了5%左右。  相似文献   

3.
随着深度学习技术的发展,利用卷积神经网络(CNN)提取视频帧特征,再用循环神经网络(RNN)生成句子的方法被广泛用于视频描述任务中.然而,这种直接转换方式忽略了很多视频内在信息,如视频序列的时序信息、运动信息及丰富的视觉元素信息等.为此,文中提出了一种基于自适应帧循环填充法的多模态视频描述(AFCF-MVC)模型;采用自适应特征提取法提取含有丰富时空信息和运动信息的视频C3D特征,使得C3D特征包含了整个视频序列所有帧的信息,并将其作为神经网络的输入;针对不同视频的标注句子长度不同问题,提出了自适应帧循环填充法,即根据标注句子的长度自适应地控制输入特征的个数,在保证句子输入完整的前提下为神经网络提供尽可能多的特征输入,并起到重复学习的作用;为了充分利用视频丰富的视觉元素信息,通过视觉检测器检测出视频帧的视觉元素信息,编码后作为额外的补充信息融合进AFCF-MVC模型中.在M-VAD和MPII-MD数据集上的实验结果显示,该模型既能准确地描述视频中的内容,也能在语法结构上模拟出人类语言的丰富性.  相似文献   

4.
提出了一种基于伪标签-1D DenseNet-KNN的光伏阵列故障诊断方法,实现在少标签样本下的光伏阵列复合故障开集识别。首先,分析了各种常见单一故障及灰尘覆盖下复合故障的I-V曲线特性。然后,为了克服常规的半监督机器学习算法需手动提取数据特征,采用一种伪标签与1D DenseNet相结合的半监督方法自动提取特征。最后,将对训练数据提取的特征、训练数据预测的标签及测试样本提取的特征输入K最近邻(KNN)算法进行开集复合故障诊断。实验表明,该方法不仅能准确分类各种已知类样本,而且能识别出未知类别故障,并且模型的训练仅需少量标签数据。  相似文献   

5.
人机交互研究领域中行为分析与识别是当前研究的一个热点,行为序列分割是行为分析与识别的基础.鉴于强度摄像机视频在进行行为分割时对光线、视角变化过于敏感,提出了一种由深度视频提取的骨架信息,基于本征维数与置信度二次判断的无监督行为序列分割算法.首先,通过Kinect跟踪人体20个骨骼关节点数据,获得视频中人的姿态,通过提取关节点极坐标位置信息来描述行为特征;然后通过奇异值分解(sigular value decomposition,SVD)估计行为序列的本征维数,确定数据对应的低维流形,通过检测特征数据在该流形上投影误差的突变来找到分割帧,并对分割出来的行为序列进行类别标记.每找到一个分割帧就对当前标记类包含样本和当前标记类的前一类包含样本进行基于置信度的二次判断,找到前一类最优分割帧并初始化继续分割.最后采用随机森林模型对分割结果进行识别验证.实验结果表明采用本文算法可以明确分割出代表不同模式的行为片段.  相似文献   

6.
暴力行为检测是行为识别的一个重要研究方向,在网络信息审查和智能安全领域具有广阔的应用前景.针对目前的时序模型在复杂背景下不能有效提取人体运动特征和常规循环神经网络无法联系输入上下文的问题,本文提出一种时序边界注意力循环神经网络TEAR-Net.首先,以本文提出的一种全新的运动特征提取模块MOE为基础,在保留输入视频段序列背景信息的前提下加强运动边界区域.运动边界对于动作识别的作用要远大于图像其他区域,因此运动边界加强能够有效提高动作特征的提取效率,从而提升后续网络的识别精度.其次,引入了一种全新的结合上下文语境和注意力机制的循环卷积门单元(CSA-ConvGRU),提取连续帧之间的流特征以及不同帧的独立特征,并关注关键帧,能够极大提升动作识别的效率,以少量参数和较低计算量的代价掌握视频流的全局信息,从而有效提高识别准确率.本文提出的模型在目前最新的公开数据集RWF-2000和RLVS上进行了多种实验.实验结果表明,本文提出的网络在模型规模和检测精度上均优于目前主流的暴力行为识别算法.  相似文献   

7.
针对现有行为识别算法在红外视频中表现不佳的问题,提出一种基于双通道特征自适应融合的红外行为识别算法.在该方法中,2个通道提取的特征分别是改进的密集轨迹特征和光流卷积神经网络特征.改进的密集轨迹特征是在原始密集轨迹特征中加入灰度值权重,强调红外视频的成像特征;光流卷积神经网络特征是在原始视频对应的光流图序列中提取的,该特征具有较强的全局描述能力.通过自适应融合模型将2个通道特征的概率输出进行自适应融合,得到最终识别结果.实验结果表明,在现有红外行为识别数据集上,该算法有效地提高了识别准确率.  相似文献   

8.
针对花样滑冰运动人体运动轨迹复杂、动作类型多样、普通人肉眼难以区分且常规的行为识别方法识别准确率低的问题,提出了一种基于时空图卷积网络与多通道注意力机制融合方法 (SAT-GCN)的花样滑冰动作识别算法。该算法首先将视频提取成连续的单独帧,使用OpenPose算法提取人体骨骼关键点数据,降低背景噪声干扰;然后使用时空图卷积算法对骨骼关键点数据进行动作分类。算法对时空图卷积算法进行改进,加入了多通道时空注意力机制融合模块,使得模型更加关注重要的关键点、时间帧片段、特征;使用时序卷积网络(TCN)提取人体骨架关键点在时间序列上的特征;使用SoftMax对提取后的特征进行动作分类。在花样滑冰数据集FSD-10和公开的人类行为数据集Kinetics-Skeleton上进行训练和测试,与改进前的时空图卷积网络(ST-GCN)进行对比,本文所提算法的预测准确率在2个数据集上均有所提升,验证了多通道注意力机制融合方法在花样滑冰选手动作检测任务中的有效性。  相似文献   

9.
为了充分提取治安监控视频中的时空特征和时序特征,并对暴力行为进行准确的识别与检测,提出一种基于三维卷积神经网络(3DCNN)和卷积长短期记忆网络(Conv LSTM)的暴力行为识别算法。首先,采用一种通用视频描述符—3DCNN结构,提取视频的短时特征,这些特征封装了视频中与目标和场景相关的背景信息,然后,构建Conv LSTM网络对3DCNN提取的短时特征在时间轴上进行建模,进而充分提取视频的高层时序特征。最后,利用Sigmoid函数分类行为动作。为了验证该算法的高效性,对所提出的方法在暴力行为数据集Hockey上进行验证,达到了98.96%的识别精度。测试结果表明,该融合模型在检测效果上优于目前人工提取特征的方法和深度学习的方法。  相似文献   

10.
通过将空间及时序信息有效结合, 提出基于双帧图模型的单目视频物体分割算法。首先, 通过手工交互得到初始帧的分割, 并据此训练获取前景物体及背景的颜色模型。然后, 利用双帧图模型融合当前帧的颜色信息以及由颜色差得到的空间和时序约束。根据观测到的颜色差异与物体运动的线性关系, 提出运动自适应的时序约束因子, 它能够随视频中物体运动变化自适应地调节。最后, 通过二值图割法计算当前帧的分割结果并更新颜色模型。利用双帧图模型可循序地对视频中的下一帧进行分割。实验结果证实, 提出的自适应时序约束因子可以提高物体分割结果的准确性和时序一致性, 量化指标表明此算法在视频物体分割中可获得更优结果。  相似文献   

11.
为了有效改善现有人脸表情识别模型中存在的信息丢失严重、组件间相对空间联系不密切的问题,提出了一种改进的多尺度卷积神经网络模型,通过构建深层多尺度卷积神经网络,使模型能够挖掘出更多潜在的特征信息;通过特征融合促进信息的流通和重利用,减少池化操作所引起的重要信息丢失,使得模型具有更好的学习能力;通过控制每层多尺度卷积神经网...  相似文献   

12.
Action recognition is important for understanding the human behaviors in the video, and the video representation is the basis for action recognition. This paper provides a new video representation based on convolution neural networks (CNN). For capturing human motion information in one CNN, we take both the optical flow maps and gray images as input, and combine multiple convolutional features by max pooling across frames. In another CNN, we input single color frame to capture context information. Finally, we take the top full connected layer vectors as video representation and train the classifiers by linear support vector machine. The experimental results show that the representation which integrates the optical flow maps and gray images obtains more discriminative properties than those which depend on only one element. On the most challenging data sets HMDB51 and UCF101, this video representation obtains competitive performance.  相似文献   

13.
近年来卷积神经网络(convolutional neural network,CNN)在行为识别任务中取得了较大的进展.然而,现有的神经网络方法往往只注重高层语义信息的利用,对浅层特征信息挖掘利用不够.针对这一问题,提出一种基于3D卷积(convolution 3D,C3D)的多尺度3D卷积神经网络的行为识别方法.该方法受到特征金字塔结构的启发,在原C3D的基础上融合C3D的浅层特征信息,实现端到端的行为识别.同时该方法以现有的深度学习理论为基础,利用迁移学习的思想,将C3D和该方法中相同模块部分的参数迁移到本方法中,以降低模型的训练时间.通过在UCF101数据集上进行实验,实验结果表明,提出行为识别方法的分类精度达到84.56%,分类效果优于原C3D分类网络.  相似文献   

14.
动作识别是近年来时序数据挖掘领域的研究热点,具有广泛的应用前景。但是现阶段基于深度学习的动作识别算法需要大量的标记训练数据集,存在泛化性差、实时性差、场景受限的问题。为解决这些问题,本研究设计一种基于轻量化二维人体姿态估计的小样本动作识别算法。该算法基于YOLOv5算法构建轻量化的人体检测器HYOLOv5。基于轻量化二维姿态估计模型Lite-HRNet设计人体姿态特征描述算子,有效地去除背景对人体动作特征的干扰。为有效度量时序人体姿态特征描述算子间的相似度,本研究提出基于动态时间规整的人体姿态特征距离度量,并在此基础上设计基于类别中心选择的动作模板匹配算法。该算法通过少量的动作视频构建动作特征模板库,利用动作模板匹配算法可实现多类动作视频的精准识别。为验证算法,本研究在COCO 2017的Humans数据集上对HYOLOv5进行测试,人体检测识别精度mAP@0.5∶0.95可达50.7%。基于10种动作视频数据进行测试,结果表明,本研究所提算法可有效地识别视频序列中的姿态,在每个动作仅包含4个训练数据的情况下,动作识别准确率均可达到91.8%。  相似文献   

15.
为了解决在背景相似的篮球视频中提取特征级运动信息不充分和捕获长时序依赖关系困难等问题,从局部和全局的角度出发,提出一种混合运动激励和时序增强网络(mixed motion excitation and temporal enhancement network,MTE-Net),该网络由在时间建模上互补的混合运动激励(mixed motion excitation,MME)模块和时序增强(temporal enhancement,TE)模块构成。混合运动激励模块通过计算短距离视频帧之间混合的特征级差分来充分表征局部运动信息,并显性地对运动敏感通道进行激励。时序增强模块对长距离视频帧使用自注意力机制来构建时序关联函数并捕获时序之间的全局依赖关系,增强视频中的重要帧序列。在不额外引入光流和过多参数的情况下,在SpaceJam篮球动作数据集上的实验结果表明,与其他主流的动作识别算法相比,所提模型对篮球运动员动作识别的准确率更高。  相似文献   

16.
为了解决传统方法在场景复杂的情况下,因无法保证时间与空间上的连续性,导致乒乓球动作识别错误,影响关键帧提取性能的问题,将柔性姿态估计和时空特征结合在一起,研究乒乓球动作视频片段关键帧提取问题。依据稠密光流对乒乓球动作视频片段进行分段。对单帧图像人体柔性姿态进行估计,通过可分离线性滤波器时空特征点检测方法对乒乓球动作视频图像序列特征点的检测,将时空特征点当成中心建立时空立方体,提取时空立方体的像素建立时空特征。为了保证时间与空间上的连续性,引入时空特征边,得到有时空特征的柔性姿态估计结果。通过直方图相交法求出乒乓球动作视频片段中姿态相似度,计算全部姿态的Hog间差异度,构成差异度矩阵。在当前帧姿态差异度超过阈值的情况下认为当前帧为关键帧。实验结果表明,所提方法针对不同场景的保真率与压缩率一直高于0. 7,处于较高水平;主观评价结果好,可提取合理关键帧。可见所提方法对复杂场景的关键帧提取性能优,主观与客观评价结果好。  相似文献   

17.
语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。  相似文献   

18.
提出一种基于多天线调频连续波(frequency modulated continuous wave, FMCW)雷达的多参数融合神经网络(fusion neural network, FNN)人体行为识别方法。针对FMCW雷达参数估计算法角度分辨率不足以及在估计目标个数错误的情况下会降低精度的问题,提出一种结合最小功率无失真响应(minimum power distortionless response, MPDR)波束形成与快速傅里叶变换(fast Fourier transform, FFT)的距离-方位角参数联合估计算法。利用2个相互垂直的线阵雷达捕捉人体行为,使用参数联合估计算法估计人体目标各回波点在水平与垂直方向的距离、角度参数。构建FNN,从参数估计结果中提取并融合人体行为在水平与垂直方向的空间与时间特征,根据融合特征实现人体行为识别与分类。实验结果表明,FNN方法对人体行为识别的准确率相比传统三维卷积神经网络(3D convolutional neural networks, 3D-CNN)提升了4.37%。  相似文献   

19.
基于图卷积网络(graph convolutional networks,GCNs)的骨架动作识别方法只能对关节点间的单一关系进行建模,缺少描述多种关系的能力.借鉴知识图谱描述实体之间不同关系的思想,提出一种基于关节点流和肢体流的双流多关系GCNs人体骨架动作识别方法,对图结点间的自然连接关系、对称关系和全局关系进行建模,各种特征在网络中同步传输并有效融合.运动的全身协作过程中,每个部位的交互范围有限且依赖于具体动作,提出基于Non-local机制的topK全局邻接关系自适应计算方法,为每个结点动态选择交互强度较大的前K个结点作为全局关系邻接点.实验结果表明,所提出的双流多关系网络在Kinetics和NTU-RGB+D数据集上取得了较好的动作识别效果.  相似文献   

20.
当前无线多媒体网络容易受到低频干扰,传统不良视频检测算法无法有效去除干扰,导致检测结果不可靠。为此,提出一种新的无线多媒体网络中不良视频检测算法。为了使运动矢量平滑,通过向量中值滤波技术对其施行处理。为了避免因摄像头位置变动造成的干扰,采用平均值法对视频进行进一步处理。在无线多媒体网络视频序列时间轴中,将局部光问题转换成关键帧识别问题。在获得关键帧的基础之上,通过HIS模型快速准确地实现肤色部分的提取,判断检测视频是否为不良视频。经实验验证,所提算法检测精度高、结果可靠,且开销小。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号