首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于视频序列的面部表情识别问题主要有两个特点:空时性和显著性。近年来,许多研究人员利用卷积神经网络、循环神经网络、三维卷积神经网络等深度学习方法处理该问题的空时特性。但是,面部表情的显著性问题却往往被忽视。随着注意力机制在深度学习网络中的应用发展,其能够有效地解决各类任务中的显著性问题。该文将空时注意力机制应用到面部表情识别中,使得深度网络更多地关注空时特征中的显著性。具体地,该文将空间注意力模块嵌入到卷积网络中,以使空域特征更加关注对表情识别重要的区域,将时间注意力模块嵌入到门控循环单元(gated recurrent units,GRU)后,使得时域特征更加关注信息丰富的视频帧。在RECOLA情感数据库上的实验表明,与一般的深度模型相比,该文的深度空时注意力网络显著提高了面部表情识别的性能。  相似文献   

2.
由于人类个体面部形态各种各样,使得不同人在表达同一感情时有可能产生较大的视觉差异,为了减弱这种内类视觉差异性对人脸表情识别产生的影响,该文提出一种分层多任务学习的人脸表情识别方法,该方法以现有深度卷积神经网络模型为基础,构造双层树分类器以替换输出层的平面softmax分类器,构建深度多任务学习框架,通过利用人脸表情标签和人脸标签共同学习更具辨识力的深度特征,将知识从相关人脸识别任务中迁移过来,从而减弱面部形态对表情识别的影响,提高表情识别性能。实验结果表明,相较于VGGnet,Googlenet和Resnet深度模型,文中提出的方法均提高了人脸表情识别率,且成功推广到面瘫表情识别问题中。  相似文献   

3.
针对库区巡检图像采集设备对图像目标智能识别需求,进行基于视觉的远距离可疑目标识别算法设计与实现. 采用目标检测算法对图像进行目标识别并采集,通过基于卷积神经网络的深度学习模型卷积层对目标图像提取特征,采用基于机器学习传统方法的浅层网络对特征进行可疑目标分类. 根据算法设计实验,实验结果表明本算法模型识别效果良好,可有效减少人工识别工作量,能满足实际应用需要要求.   相似文献   

4.
堆积降噪自动编码机是一种典型的深度学习模型,它能够刻画数据丰富的内在信息,具有较强的特征学习能力。基于主成分分析(principal component analysis,PCA)技术和堆积降噪自动编码机(stacked denoising autoen-coders,SDAE)模型,提出一种新的表情识别算法PCA+SDAE。该算法对人脸图片进行裁剪及归一化等预处理,采用主成分分析技术对人脸特征进行线性降维,再利用堆积降噪自动编码机逐层进行特征学习并同时实现对人脸表情数据的非线性降维,可以得到更好的、维度更低的表情特征,并据此进行表情分类。对PCA+SDAE算法的仿真测试实验结果表明,其综合性能比其他的基于深度学习模型的表情识别方法更好,同时与传统的非深度学习表情识别方法相比,它具有更高的表情识别正确率。  相似文献   

5.
本文提出一种基于挤压和激励残差网络的歌声检测算法,运用该算法,不需要对音乐信号进行复杂的特征工程处理,仅需对网络输入简单朴素的声学特征,便能通过多层次卷积以及挤压和激励操作,学习到更多的有效特征,从而达到比当前流行的检测算法更强的性能.算法中,残差结构使得网络可以轻松扩展深度,挤压和激励模块能对深度残差网络中学习到的多...  相似文献   

6.
针对视频转文字(video to text)存在的建模复杂和准确率低的问题,提出了基于自适应帧采样算法和双向长短时记忆模型的视频转文字方法.自适应帧采样算法能够动态地调整采样率,以提供尽量多的特征来训练模型;结合双向长短时记忆模型,能有效学习视频中前面帧和未来帧的相关信息;同时,用于训练的特征是来自深度卷积神经网络的特征,使得这种双深度的网络结构能够学习视频帧在时空上的关联表示及全局依赖信息;帧信息的融合又增加了特征的种类,从而提升了实验效果.结果显示,在M-VAD和MPIIMD两个数据集中,文中的方法在METEOR中的评分均值分别为7.8%和8.6%,相对原S2VT模型分别提高了16.4%和21.1%,也提升了视频转文字的语言效果.  相似文献   

7.
视频哈希是从视频中提取到的基于视觉内容的短小数字序列,在实际应用中,用视频哈希来表示视频,能降低视频的存储代价和视频相似计算的复杂度。目前,视频哈希已被广泛应用于拷贝检测、篡改取证、视频索引、视频检索等方面。近年,视频哈希研究取得许多重要进展,研究人员设计和开发出多种手工特征提取技术,并建立一系列视频哈希算法。本文将基于手工特征的视频哈希算法分为空域计算和时空域计算2个大类,其中基于空域计算的哈希算法又分为逐帧计算和关键帧计算2类,而基于时空域计算的哈希算法则分为正交变换、统计特征、视觉特征点、数据降维和其他技术5类。根据这些分类,本文先分析每类算法的代表性研究成果并总结其性能;然后介绍常用的哈希度量方法、性能评价指标和视频数据集;最后列出未来研究工作可重点关注的内容,包括面向篡改取证的视频哈希、基于深度学习的高效视频哈希和面向移动应用的轻量级视频哈希等。  相似文献   

8.
针对基于深度学习的调制识别算法对带标签样本需求量过大的问题,采用基于元学习思想的多任务训练策略,通过大量不同的任务训练网络来获取一种跨任务的信号识别能力,使得网络在面对新信号类别时仅需少量样本就能快速适应。为更全面地提取信号样本的特征,设计了一种由卷积神经网络和长短时记忆网络并联组成的混合特征并行网络,通过度量样本特征向量间距离的方式完成识别任务;并引入可同时考虑信号类内与类间距离的联合损失函数,以使信号样本特征在度量空间内的分布能更加紧凑,从而实现更高效的相似性比对。实验结果表明,该算法在仅有5个带标签信号样本条件下最高可达到88.43%的识别准确率。  相似文献   

9.
人体行为识别是计算机视觉领域研究的一个热点,为了提高视频中的人体行为识别的准确率,提出了一种基于3D卷积神经网络的行为识别方法,首先构建3D CNN模型,通过三维卷积核,来提取视频中人体行为的时-空域信息,最终并在UCF-101数据集上进行训练与测试,证明了该方法具有较好的识别效果。  相似文献   

10.
为了充分提取治安监控视频中的时空特征和时序特征,并对暴力行为进行准确的识别与检测,提出一种基于三维卷积神经网络(3DCNN)和卷积长短期记忆网络(Conv LSTM)的暴力行为识别算法。首先,采用一种通用视频描述符—3DCNN结构,提取视频的短时特征,这些特征封装了视频中与目标和场景相关的背景信息,然后,构建Conv LSTM网络对3DCNN提取的短时特征在时间轴上进行建模,进而充分提取视频的高层时序特征。最后,利用Sigmoid函数分类行为动作。为了验证该算法的高效性,对所提出的方法在暴力行为数据集Hockey上进行验证,达到了98.96%的识别精度。测试结果表明,该融合模型在检测效果上优于目前人工提取特征的方法和深度学习的方法。  相似文献   

11.
光学乐谱识别是音乐信息检索中一项重要技术,音符识别是乐谱识别及其关键的部分.针对目前乐谱图像音符识别精度低、步骤冗杂等问题,设计了基于深度学习的端到端音符识别模型.该模型利用深度卷积神经网络,以整张乐谱图像为输入,直接输出音符的时值和音高.在数据预处理上,通过解析Music XML文件获得模型训练所需的乐谱图像和对应的标签数据,标签数据是由音符音高、音符时值和音符坐标组成的向量,因此模型通过训练来学习标签向量将音符识别任务转化为检测、分类任务.之后添加噪声、随机裁剪等数据增强方法来增加数据的多样性,使得训练出的模型更加鲁棒;在模型设计上,基于darknet53基础网络和特征融合技术,设计端到端的目标检测模型来识别音符.用深度神经网络darknet53提取乐谱图像特征图,让该特征图上的音符有足够大的感受野,之后将神经网络上层特征图和该特征图进行拼接,完成特征融合使得音符有更明显的特征纹理,从而让模型能够检测到音符这类小物体.该模型采用多任务学习,同时学习音高、时值的分类任务和音符坐标的回归任务,提高了模型的泛化能力.最后在Muse Score生成的测试集上对该模型进行测试,音符识别精度高,可以达到0.96的时值准确率和0.98的音高准确率.  相似文献   

12.
基于深度学习的车标识别算法的研究与实现   总被引:1,自引:0,他引:1  
依据深度学习算法可以自主进行特征学习和识别的特点,提出一种基于Keras深度学习框架的车标识别算法。将该方法将ResNet50和Inception V3两模型相结合构建训练网络,以此建立分类器对车标图像进行识别。实验结果表明,该方法与传统的卷积神经网络分类进行比对,提高了车标识别的准确率。  相似文献   

13.
针对传统目标轮廓识别算法对图像目标轮廓识别精度较低、 效果较差的问题, 提出一种基于深度学习的二值图像目标轮廓识别算法. 首先, 选取深度学习算法中的深度卷积网络算法识别二值图像目标轮廓, 将二值图像划分为不重叠的、 大小相同的子块图像输入深度卷积网络第一层; 其次, 卷积网络中的滤波器(卷积核)采用传统神经网络算法优化的代价函数对输入子块图像实施卷积滤波, 并将卷积滤波后下采样图像发送至第二层, 第二层经过相同处理后将结果输入第三层, 第三层输出图像即为该子块目标轮廓识别结果; 最后, 所有子块识别结束后在输出层通过全连接方法将其聚类, 并输出最终二值图像目标轮廓识别结果. 实验结果表明, 该算法识别15幅二值图像目标轮廓的识别精度平均为98.75%, 信噪比平均为2.42, 识别效果较优.  相似文献   

14.
罗辉  何海清  徐献聪 《江西科学》2021,39(1):134-137
基于传统道路损伤检测方法主要通过人工选取特征识别道路损伤,致使检测过程中抗干扰性较差,进而制约道路损伤识别精度的提高.针对这一问题,提出一种基于深度卷积神经网络的道路损伤检测方法.通过引入深度学习算法,利用迁移学习策略,构建稳健的非线性道路损伤识别模型;结合真彩色的道路图像,利用多层卷积神经网络抽取局部损伤区域的高级语义特征,实现复杂背景变化下的道路损伤智能检测.实验结果表明,提出的方法可准确识别道路损伤图像,相比常用方法能显著提高识别准确率.  相似文献   

15.
16.
雒翠萍  聂志刚 《甘肃科技》2022,38(1):23-25+50
人脸面部表情是人机交互和非言语交际的有效方式,对面部表情进行识别并分析,可以获取很多信息,在安全监控、人工智能、军警、心理学等领域有着许多不同的应用。本研究基于深度学习对人脸表情识别进行深入研究,采用Open CV内置算法进行人脸检测,利用卷积神经网络进行面部表情识别,实现对人脸最基本的7种表情包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中立分别进行识别。与传统的人脸表情识别方法相比较,卷积神经网络的识别精度高,训练参数少,在面部表情特征表现明显的情况下,对7种表情的识别精度都能超过70%以上。  相似文献   

17.
在计算机视觉领域中,大多数的视频表示方法都是有监督的,需要大量带有标签的训练视频集,但标注大量视频数据会花费极大的人力和物力.为了解决这个问题,提出了一种基于深度神经网络的无监督视频表示方法.该方法利用改进的稠密轨迹(iDT)算法提取的视频块交替地训练深度卷积神经网络和特征聚类,得到可提取视频特征的深度卷积神经网络模型;通过视频的中层语义特征,实现了无监督视频表示.该模型在HMDB 51行为识别数据库和CCV事件检测数据库上分别进行了动作识别和事件检测的实验,获得了62.6%的识别率和43.6%的检测率,证明了本文方法的有效性.  相似文献   

18.
针对传统指纹识别方法存在准确率低、推理速度慢等问题,提出了一种应用于指纹识别和匹配的深度学习模型Finger-mixNet指纹识别算法。Finger-mixNet模型基于卷积神经网络和Transformer结构进行关联融合,包括两个核心模块共同表征指纹识别任务的深度特征。Network-C模块基于卷积神经网络获取浅层纹理特征,Network-TC模块基于自注意力机制和卷积共同捕捉指纹深度特征信息,在获得对重点区域注意力的同时,具有比传统卷积更小的计算开销。为证明模型的有效性,在自建的指纹数据集和公共数据集中对模型进行了测试,在自建数据集中Finger-mixNet达到了97.1%的识别准确率,在公共数据集中也取得了98.3%的识别准确率,除此之外Finger-mixNet在保持高识别率同时在上述两种数据集中均能保持200FPS的识别速度。  相似文献   

19.
针对基于深度学习的人脸识别这一生物特征识别领域的研究热点进行了综述.阐释了人脸识别及深度学习模型的基本结构;总结了该技术在国内外的研究现状及其应用,如基于卷积神经网络(CNN)的人脸识别方法、深度非线性人脸形状提取方法、基于深度学习的人脸姿态鲁棒性建模、有约束环境中的全自动人脸识别、基于深度学习的视频监控下的人脸识别、基于深度学习的低分辨率人脸识别以及其他基于深度学习的人脸信息的识别等;分析了当前人脸识别技术在深度学习应用中存在的问题及发展趋势.  相似文献   

20.
深度学习的集成特征提取这一优点使得它广泛应用于人脸检测和识别。提出了一种多任务级联卷积网络模型(Multitask Cascaded Convolution Network,MTCNN)。基于Tensor Flow平台,基于改进的任务级联卷积网络模型检测到人脸,并且用Face Net算法对人脸进行特征提取,用KNN算法对人脸进行识别。实验结果表明,对不同光照下多人图像和遮挡图像的人脸进行检测和识别,具有良好的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号