首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
对于第一人称行为识别任务,现有方法大多使用了目标边界框和人眼视线数据等非行为类别标签对深度神经网络进行辅助监督,以使其关注视频中手部及其交互物体所在区域。这既需要更多的人工标注数据,又使得视频特征的提取过程变得更为复杂。针对该问题,提出了一种多尺度时序交互模块,通过不同尺度的3D时序卷积使2D神经网络提取的视频帧特征进行时序交互,从而使得单一视频帧的特征融合其近邻帧的特征。在只需行为类别标签作监督的情况下,多尺度时序交互能够促使网络更加关注第一人称视频中手部及其交互物体所在区域。实验结果表明,提出的方法在识别准确率优于现有第一人称行为识别方法。  相似文献   

2.
近年来,异常行为识别算法取得了一定的研究进展,但是针对复杂环境、人体遮挡、动作相似度高等多种挑战,识别算法的适应性、效率、准确性都有待进一步提高。为了解决以上问题,提出了基于特征增强的人体检测与异常行为识别联合算法,首先将视频序列分别送入人体检测网络和特征加强网络,再采用爱因斯坦求和法将特征加强网络输出的多头卷积注意力特征与人体检测网络输出的热力图特征融合,得到加强融合特征,然后利用检测网络输出的人体目标位置特征信息和ROI Align模块对加强融合特征进行人体ROI(region of interest)区域特征截取,得到人体ROI区域加强融合特征,最后将人体ROI区域加强融合特征送入Transformer时序建模网络模块进行人体行为特征时序建模和识别。所提算法充分利用检测网络中间过程产生的行为主体区域特征,弱化了复杂环境中背景的干扰,同时实现了检测网络的输出特征共享,避免了识别网络的二次特征提取过程,从而提高了网络运行效率,且利用Transformer网络的建模优势,能够充分挖掘人体行为空间特征、时序特征以及之间的跨域特征的优势。实验结果表明:所提算法在提高了网络效率的同时大幅度地...  相似文献   

3.
以YOLOv5s网络模型为基础,引入注意力机制CBAM模块,基于Ghost卷积模块重构网络模型的卷积操作,提出一种面向扶梯不安全行为的改进型深度学习检测算法.然后,在自主收集的扶梯不安全行为数据集上对其进行训练评估.结果表明,所提算法在检测精度有所提高的同时,大幅减少了检测所需的参数量和计算量.  相似文献   

4.
为了解决在背景相似的篮球视频中提取特征级运动信息不充分和捕获长时序依赖关系困难等问题,从局部和全局的角度出发,提出一种混合运动激励和时序增强网络(mixed motion excitation and temporal enhancement network,MTE-Net),该网络由在时间建模上互补的混合运动激励(mixed motion excitation,MME)模块和时序增强(temporal enhancement,TE)模块构成。混合运动激励模块通过计算短距离视频帧之间混合的特征级差分来充分表征局部运动信息,并显性地对运动敏感通道进行激励。时序增强模块对长距离视频帧使用自注意力机制来构建时序关联函数并捕获时序之间的全局依赖关系,增强视频中的重要帧序列。在不额外引入光流和过多参数的情况下,在SpaceJam篮球动作数据集上的实验结果表明,与其他主流的动作识别算法相比,所提模型对篮球运动员动作识别的准确率更高。  相似文献   

5.
垃圾邮件给当今人们的生活带来严重的负面影响.虽然已经有很多过滤方法,但大多存在一定的不足之处,如检测时间长、召回率低等问题.本文提出了一种基于模拟退火算法和发送行为的垃圾邮件检测模型,旨在弥补已有检测方法的不足.模拟退火算法可能找到全局最优解,且收敛性强;而基于发送行为的垃圾邮件检测技术能显著提高服务器处理垃圾邮件的速度.本文尝试将二者相结合,以提高垃圾邮件的召回率及服务器处理能力.通过实验结果可以看出,该方法在垃圾邮件的召回率上有较大提升,较适于部署在小型邮件服务器上.  相似文献   

6.
视频行为识别是有前景并且有挑战性的任务,但现有的大部分方法依赖大量的参数和运算.该文提出了一种基于连续多帧缓存的高效行为识别方法:首先针对多人场景的问题,输入单帧图片,结合人体检测器给出所有人的动作分类和得分;然后通过使用时序位移模块缓存之前帧的特征,使网络具有时序信息处理的能力.实验结果表明:该方法取得了较好的轻量化效果,搭配额外的目标检测网络,可以做到多人场景实时的行为识别,体现了一定的识别速度和准确率优势.  相似文献   

7.
准确识别轨面状态,可为列车牵引/制动性能提升提供关键依据。重点针对传统代价敏感学习应用在非均衡轨面状态识别中存在的同类别样本重要性不同和多数类精度下降等问题,提出一种基于注意力网络和代价敏感学习的轨面状态识别方法。该法首先利用迁移学习思想将均衡数据集的特征迁移到非均衡轨面状态数据集,减轻少数类样本误分类影响;其次在骨干网络ResNet18中引入卷积注意力机制模块,增强网络对目标区域的特征学习能力和全局特征信息的感知性能,调整优化网络权重参数;最后构造依据轨面状态样本重要性大小的自适应加权平衡损失函数,降低决策边界对困难样本中多数类的过拟合,获得更加平滑的决策边界。非均衡数据下的实验结果表明,在3种非均衡比下,所提方法的准确率和召回率分别达到96.00%、90.67%、86.33%,与目前常用的方法Focal相比,分别提升了7.00%、2.34%、3.00%。此外,该方法在提高少数类召回率的同时可有效维持多数类的召回率,并且降低了网络训练时间成本。  相似文献   

8.
传统基于Token的同源性检测算法存在代码变体结构化信息定位困难、模块提取、识别能力差、同源性度量精度低的问题.为此,提出了一种基于改进编辑距离和LCS(longest common sequence)的结构化识别同源性检测技术.在编辑距离(edit distance)计算中,引入交换算子,提高模块内部同源性度量精度.在LCS算法中,引入相似模块度量的最小尺寸监测机制和代码行间最大动态相关性度量,提供代码结构边界划分、模块行关联、代码有效结构化信息抽取的能力.实验证明,该方法是一种有效的基于结构化信息的同源性检测技术,其随机抽样检测结果的准确率、召回率及F值均有较优表现,且稳定性较好.   相似文献   

9.
针对传统稠密轨迹行为识别法不能很好地区分行为区域和背景的问题,提出一种运用显著性检测的行为识别方法。考虑到视频显著性在较小的时空范围内变化不大,将视频在时域分割为多个短子视频,并将子视频在空域划分成小块,再以块为基础运用一种两阶段显著性检测方法获取每个子视频的行为区域。在检测的第一阶段,将低秩矩阵恢复算法应用于子视频的运动信息计算其初始显著性,并据此将其内所有块划分为候选前景集合和绝对背景集合;在第二阶段,为了将真正的行为区域从候选前景集合中分离出来,利用绝对背景集合中块的运动信息构建字典,通过加权稀疏表示算法计算候选前景集合中每个块的细化显著性,再通过阈值化获取二值显著图用以指示行为区域;最后,将显著图融入稠密跟踪过程以获取行为区域轨迹用于行为识别。基准数据集上的实验结果表明,该方法能够较好地检测视频中的行为区域,获得的识别率高于传统稠密轨迹法2.5%~4.5%。  相似文献   

10.
赵丽坤  王于可 《科学技术与工程》2020,20(28):11647-11652
为提高社交网络个性化服务质量,研究数据周期推荐算法的重大意义,针对传统推荐算法相似度计算准确率不高,导致推荐结果精度低、召回率低和耗时长等问题,提出一种基于人工智能的社交网络用户行为数据周期推荐算法。首先依据用户行为建立评分矩阵,利用皮尔逊相关系数计算评分矩阵评分值与网络行为数据相似度,依据计算得出的相似度以协同过滤为核心来检出需要推荐的社交网络用户数据内容,其次利用Top-N法生成用户邻居集,最后实现社交网络用户行为数据内容周期推荐。实验测试结果表明,所提算法的相似度计算准确率较高,网络用户行为数据周期推荐结果精度可高达97.2%,且推荐结果召回率高、耗时低,提高了社交网络个性化服务质量。  相似文献   

11.
镜头边界检测是基于内容视频检索的基础环节。由于视频类型与内容众多,目前镜头边界检测中存在阈值选取困难、查全率和查准率不高等问题。针对以上问题提出一种改进的基于互信息量的镜头边界检测算法,在字幕检测定位算法有效定位字幕区域的基础上,通过比较非字幕、非四角区域HSV空间直方图求取的相邻帧间互信息量的差异程度,实现镜头边界检测。实验表明,与当前应用最广泛且比较有效的双阈值算法相比,突变镜头检测综合性能平均提高12.4%,渐变镜头检测综合性能平均提高8.2%,通过自适应阈值的选取,有效解决了阈值依赖人工经验选取的问题;与当前已提出的基于互信息量的镜头边界检测算法相比,该算法降低了计算复杂度、几乎能检测所有的淡入淡出镜头边界,并使得镜头边界检测具有较高的查全率与查准率。  相似文献   

12.
为了解决传统方法在场景复杂的情况下,因无法保证时间与空间上的连续性,导致乒乓球动作识别错误,影响关键帧提取性能的问题,将柔性姿态估计和时空特征结合在一起,研究乒乓球动作视频片段关键帧提取问题。依据稠密光流对乒乓球动作视频片段进行分段。对单帧图像人体柔性姿态进行估计,通过可分离线性滤波器时空特征点检测方法对乒乓球动作视频图像序列特征点的检测,将时空特征点当成中心建立时空立方体,提取时空立方体的像素建立时空特征。为了保证时间与空间上的连续性,引入时空特征边,得到有时空特征的柔性姿态估计结果。通过直方图相交法求出乒乓球动作视频片段中姿态相似度,计算全部姿态的Hog间差异度,构成差异度矩阵。在当前帧姿态差异度超过阈值的情况下认为当前帧为关键帧。实验结果表明,所提方法针对不同场景的保真率与压缩率一直高于0. 7,处于较高水平;主观评价结果好,可提取合理关键帧。可见所提方法对复杂场景的关键帧提取性能优,主观与客观评价结果好。  相似文献   

13.
动作识别是近年来时序数据挖掘领域的研究热点,具有广泛的应用前景。但是现阶段基于深度学习的动作识别算法需要大量的标记训练数据集,存在泛化性差、实时性差、场景受限的问题。为解决这些问题,本研究设计一种基于轻量化二维人体姿态估计的小样本动作识别算法。该算法基于YOLOv5算法构建轻量化的人体检测器HYOLOv5。基于轻量化二维姿态估计模型Lite-HRNet设计人体姿态特征描述算子,有效地去除背景对人体动作特征的干扰。为有效度量时序人体姿态特征描述算子间的相似度,本研究提出基于动态时间规整的人体姿态特征距离度量,并在此基础上设计基于类别中心选择的动作模板匹配算法。该算法通过少量的动作视频构建动作特征模板库,利用动作模板匹配算法可实现多类动作视频的精准识别。为验证算法,本研究在COCO 2017的Humans数据集上对HYOLOv5进行测试,人体检测识别精度mAP@0.5∶0.95可达50.7%。基于10种动作视频数据进行测试,结果表明,本研究所提算法可有效地识别视频序列中的姿态,在每个动作仅包含4个训练数据的情况下,动作识别准确率均可达到91.8%。  相似文献   

14.
Moving object detection in video surveillance is an important step. This paper addresses an automatic object detection algorithm based on spatio-temporal compensation for video surveillance. Temporal difference of the pairs of two frames with a k-frame distance is utilized to obtain coarse object masks. Usually, object regions in these coarse masks have discontinuous boundaries and some holes. Region growing with the distance constraint is proposed to compensate these coarse object regions in spatial domain, followed by filling holes. The added distance constraint can prevent object regions from growing infinitely. The proposed filling holes method is simple and effective. To solve the temporarily stopping problem of moving objects, temporal compensation is proposed to compensate the object mask by utilizing temporal coherence of moving objects in temporal domain. The proposed detection algorithm can extract moving objects as completely as possible. Experimental results have successfully demonstrated the validity of the proposed algorithm.  相似文献   

15.
基于改进Faster R-CNN的自然场景文字检测算法   总被引:1,自引:0,他引:1  
自然场景中的文字受光照、污迹、文字较小等方面的影响,其检测难度较大,且传统的检测方法效果不好。在研究目标检测方法Faster RCNN的基础上,提出一种针对自然场景文字的改进方法。改进的模型由卷积神经网络特征提取模块,嵌套LSTM(nested long short-term memory,NLSTM)模块和区域候选网络(region proposal network,RPN)模块3部分组成,改进点主要是卷积神经网络特征提取模块增加了不同卷积层的空间特征融合,能够提取多层次的特征;增加嵌套LSTM模块能够学习长序列文本的序列特征,便于检测不定长度的文本序列;RPN模块通过设置宽为8像素,高度不定的锚点(anchor),可以提取一系列可能存在的目标建议框,其对小目标文字效果较好?。在实验部分,通过对标准数据集(ICDAR 2013,Multilingual)的实验结果对比表明,所提出的改进算法在准确率和效率方面明显优于改进前的算法。通过实列测试,改进的模型对小目标文字检测效果也有所提升。  相似文献   

16.
The devastating effects of wildland fire are an unsolved problem, resulting in human losses and the destruction of natural and economic resources. Convolutional neural network(CNN) is shown to perform very well in the area of object classification. This network has the ability to perform feature extraction and classification within the same architecture. In this paper, we propose a CNN for identifying fire in videos. A deep domain based method for video fire detection is proposed to extract a powerful feature representation of fire. Testing on real video sequences, the proposed approach achieves better classification performance as some of relevant conventional video based fire detection methods and indicates that using CNN to detect fire in videos is efficient. To balance the efficiency and accuracy, the model is fine-tuned considering the nature of the target problem and fire data. Experimental results on benchmark fire datasets reveal the effectiveness of the proposed framework and validate its suitability for fire detection in closed-circuit television surveillance systems compared to state-of-the-art methods.  相似文献   

17.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号