首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
现有的语音-人脸跨模态关联学习方法在语义关联和监督信息方面仍然面临挑战,尚未充分考虑语音与人脸之间的语义信息交互。为解决这些问题,提出一种基于多模态共享网络的自监督关联学习方法。首先,将语音和人脸模态的特征映射到单位球面,构建一个公共的特征空间;接着,通过多模态共享网络的残差块来挖掘复杂的非线性数据关系,并利用其中权重共享的全连接层来增强语音与人脸特征向量之间的关联性;最后,使用K均值聚类算法生成的伪标签作为监督信号来指导度量学习,从而完成4种跨模态关联学习任务。实验结果表明,本文提出的方法在语音-人脸跨模态验证、匹配和检索任务上均取得了良好的效果,多项评价指标相较于现有基线方法提升1%~4%的准确率。  相似文献   

2.
针对人脸情绪识别类内差异大,类间差异小的特点,结合学生人脸图像的线上课堂情绪识别的场景,提出多尺度空洞卷积模块提取不同空间尺度特征的稠密深度神经网络模型,实现自然场景下学生人脸图像识别.该模型主要由多尺度空洞卷积和DenseNet神经网络两个子网络组成,其中多尺度空洞卷积由不同空洞率的四分支网络提取不同尺度特征,空洞卷积减小特征图尺寸,减少DenseNet内存资源占用;最后在DenseNet网络中结合Adam优化器和中心损失函数.使用稠密网络的旁路连接,加强情绪特征传递和复用.研究结果表明:基于稠密深度神经网络的情绪识别网络模型能够有效提高情绪分类的准确率,模型对预处理后的FER2013+数据集识别准确率达到93.99%,可为线上教学反馈提供技术支持.  相似文献   

3.
针对对抗生成神经网络在人脸轮廓细节恢复上不够完善的问题,利用人脸图像的结构先验信息提出了一种边缘增强的生成对抗网络人脸超分辨率的重建算法.首先,利用人脸图像及其边缘图像的一致性关系设计一种并行网络提取面部和边缘细节特征;然后,通过特征融合网络获得高分辨率的生成图像;最后,利用判别网络判别生成图像的真伪.在人脸图像数据库上进行的人脸超分辨率重建实验结果表明:提出的边缘增强生成对抗网络能够提升面部细节重建能力,主观和客观评价指标均优于现有的人脸超分辨率算法.  相似文献   

4.
语音信号和面部表情是人们表达情感的主要途径,也被认为是情感表达的两个主要模态,即听觉模态和视觉模态.目前情感识别的研究方法大多依赖单模态信息,但是单模态情感识别存在信息不全面、容易受噪声干扰等缺点.针对这些问题,提出一种融合听觉模态和视觉模态信息的两模态情感识别方法 .首先利用卷积神经网络和预先训练好的面部表情模型,分别从语音信号和视觉信号中提取相应的声音特征和视觉特征;然后将提取的两类特征进行信息融合和压缩,充分挖掘模态间的相关信息;最后,利用长短期记忆循环神经网络对融合后的听觉视觉双模态特征进行情感识别.该方法能够有效地捕捉听觉模态和视觉模态间的内在关联信息,提高情感识别性能.利用RECOLA数据集对提出的方法进行验证,实验结果证明基于双模态的模型识别的效果比单个的图像或声音识别模型更好.  相似文献   

5.
针对固定正交基下语音信号稀疏化程度低、适应性差的问题,提出了一种自适应的语音稀疏化方法,并将其应用到语音压缩感知理论中.该方法首先采用线性预测系数的加权线性组合对语音信号进行线性预测,并以线性预测残差基作为信号基.然后,按照稀疏约束条件训练出稀疏表示的过完备字典,并交替应用1-范数稀疏约束的追踪和奇异值分解算法,达到字典与稀疏系数同步更新.该方法从信号特征入手,学习并提取特征或纹理信息,能较好地实现语音信号的稀疏化,提高语音压缩感知的重构性能.实验结果显示,与其他正交基方法相比,该方法的语音稀疏化程度高.语音质量的主客观评价结果显示,该方法具有良好的重构性能.  相似文献   

6.
谣言检测是对社交网络上传播的信息内容进行真实性鉴别的任务.一些研究表明融合多模态信息有助于谣言检测,而现有多模谣言检测方法具有以下问题:(1)只是将处于不同表示空间的单模态特征简单拼接形成多模态表示,没有考虑多模态之间的关系,难以提高模型的预测性能和泛化能力.(2)缺乏对社交网络数据组成结构的细致考虑,只能处理由文本-图像对的社交网络数据,无法处理由多幅图像组成的数据,且当其中一种模态(图像或文本)缺失时模型无法进行预测.针对上述问题,本文提出了一种多任务多模态谣言检测框架(MMRDF),该框架由3个子网络组成:文本子网络、视觉子网络和融合子网络,通过从单模态数据中提取浅层至深层的单模特征表示,在不同的子空间中产生特征图,丰富模态内特征,并通过复合卷积结构融合生成联合多模态表示,以获得更好的预测性能.同时该框架可以灵活地处理所有类型的推文(纯文本、纯图像、文本-图像对和多图像文本),并且没有引入造成额外时间延迟的传播结构、响应内容等数据作为输入,可以在推文发布后立即应用于谣言检测,减少辟谣的时间延迟.在两个真实数据集上的实验结果表明,所提框架明显优于目前最先进的方法,准确率上的提升分别...  相似文献   

7.
【目的】针对粉尘环境中单幅图像深度预测精度低的问题,提出了一种基于输入特征稀疏化的粉尘图像深度预测网络。【方法】使用粉尘图像的直接传输率与深度的关系设计预估计深度网络,利用图像颜色衰减先验原理进一步获取粉尘图像的稀疏深度特征。将该稀疏深度特征与粉尘图像一起作为深度预测网络的输入。深度预测网络以“编码器-解码器”为模型框架,编码器中使用残差网络(ResNet)对粉尘图像进行编码,设计融合通道注意力机制的稀疏卷积网络对稀疏深度特征进行编码。解码器中采用反卷积以及多尺度上采样的方法,以更好的重建稠密的深度信息。使用最小绝对值损失和结构相似性损失作为边缘保持损失函数。【结论】在NYU-Depth-v2数据集上的实验结果表明该方法能够从粉尘图像中有效预测深度信息,平均相对误差降低到0.054,均方根误差降低到0.610,在δ<1.25时准确率达到0.967.  相似文献   

8.
双向长短时记忆(bidirectional lorg short term memory,BLSTM)是一种特殊的递归神经网络(recurrent neural network,RNN),能够有效地对语音的长时上下文进行建模。该文提出一种基于深度BLSTM的语音驱动面部动画合成方法,利用说话人的音视频双模态信息训练BLSTM-RNN神经网络,采用主动外观模型(active appearance model,AAM)对人脸图像进行建模,将AAM模型参数作为网络输出,研究网络结构和不同语音特征输入对动画合成效果的影响。基于LIPS2008标准评测库的实验结果表明:具有BLSTM层的网络效果明显优于前向网络的,基于BLSTM-前向-BLSTM 256节点(BFB256)的三层模型结构的效果最佳,FBank、基频和能量组合可以进一步提升动画合成效果。  相似文献   

9.
将稀疏表示同时应用于人脸图像年龄特征提取和年龄自动估计2个关键环节,提出一种基于稀疏表示的年龄估计新方法。该方法首先对人脸图像进行稠密采样,提取底层的SIFT描述子,训练字典对其进行稀疏编码,再进行空间金字塔表示,并将其作为刻画年龄属性的图像特征,然后采用线性稀疏回归模型同时选择特征进行年龄估计。针对人脸老化过程具有非线性特点,提出一种基于分段线性策略的层次模型,即首先训练若干个分类器将人脸粗分类到不同的年龄段,然后在该年龄段中训练对应的线性模型对年龄进行精确估计。在权威的FG-NET和MORPH人脸库上对该方法的有效性进行实验验证。研究结果表明:所提出的方法在FG-NET人脸库上年龄估计偏差的平均绝对误差为3.79,远比当前最好方法的平均绝对误差低,而在MORPH人脸库上的平均绝对误差为6.46,与当前最好方法的平均绝对误差相当。  相似文献   

10.
卷积神经网络在人脸识别上有较好的效果,但是其提取的人脸特征忽略了人脸的局部结构特征.为了提取更加全面的人脸特征,提出一种基于局部二值模式(local binary pattern,LBP)与卷积神经网络相结合的新方法.首先,提取人脸图片的LBP特征图像,然后把LBP图像与原RGB图像结合作为网络输入数据,并且使用随机梯度下降法训练网络参数,最后用训练得到的网络模型对人脸图片进行识别.通过在LFW(labeled face in the wild)人脸识别数据库上的实验表明,在卷积神经网络中加入LBP图像信息可以提高人脸识别的准确率.另外,当增加训练数据时,提出的方法得到的识别率会进一步提高,更说明提出方法的有效性.  相似文献   

11.
盲人脸修复任务是从低质量的图像(例如模糊、噪声和压缩图像)中恢复高质量的图像.由于事先不知道低质量图像的退化类型和退化参数,因此盲人脸修复是一个高度病态的问题,在修复过程中严重依赖各种先验指导.然而,由于面部成分和面部标志等面部先验通常是从低质量图像中提取或估计的,可能存在不准确的情况,这直接影响最终的修复性能,因此难以有效利用这些先验知识.此外,目前的主流方法基本都是依赖ConvNets进行特征提取,没有很好地考虑长距离特征,导致最终结果缺乏连续一致性.本文提出了一种改进的StyleGAN模型,命名为SwinStyleGAN,应用在高级视觉任务上表现出色的Swin Transformer来提取长距离特征,并通过改进后的类StyleGAN合成网络逐步生成图像.本文设计了一个空间注意力转换模块SAT来重新分配每个阶段特征的像素权重,以进一步约束生成器.大量实验表明,本文提出的方法具有更好的盲人脸修复性能.  相似文献   

12.
自动语音切分是语音识别、声纹识别、语音降噪等语音应用中非常重要的预处理环节,切分算法的优劣直接影响了系统输出结果的精度.在空管地空通话中,传输信道噪声、天气因素以及说话人工作状态均会对语音信号产生影响,进而在一定程度上影响语音切分性能.在分析空管地空通话语音特性基础上,提出了一种基于CGRU网络多输入特征的自动语音切分方法.该方法结合地空通话的特点,采用深度学习的方法进一步提取语音信号的时域和频域非线性特征,将语音信号帧分类为语音帧、结束帧以及其他帧三类.实验对比了多种语音特征作为输入对切分效果的影响,同时验证了GMM、CNN、CLDNN、CGRU等切分算法在真实地空通话测试集上的表现,并提出了一种简单预测结果平滑算法.实验结果表明,文中提出的自动切分方法在地空通话中具有明显优势,分类模型的AUC值达到了0.98.  相似文献   

13.
空间信息表示是增强图像特征表达性能的重要手段,通过空间关系建模与深度学习方法融合可有效提升深度特征的语义特性,从而提升图像检索性能.首先,针对复杂图像的空间关系表示提出了一种新的精细拓扑结构表示模型,该模型不仅具有完备的拓扑描述性能,还提供了两种拓扑不变量的推理算法,使得拓扑不变量可以由表示模型直接推导而不需要繁复的几何计算;其次,基于精细拓扑结构表示模型,提出了有效的拓扑结构相似性度量方法,为空间关系特征表达奠定了基础;最后,进一步结合卷积神经网络,提出融合复杂空间关系特征与深度特征的多目标图像检索方法.实验结果表明,所提出的拓扑结构表示模型在空间查询中具有良好的性能;所提出的图像检索框架取得优于现有方法的精度,并能够有效地结合手工特征与深度特征各自的优势,为提升深度学习方法的可解释性创造了有利条件.  相似文献   

14.
针对人脸识别中识别精度低的问题,提出一种基于深度学习的跨年龄人脸识别算法.该方法创新性地将方向梯度直方图(Histogram of Oriented Gradient,HOG)和中心对称局部二值模式(Center Symmetric Local Binary Pattern,CSLBPS)组合方法用于人脸图像特征提取,获得包含结构和强度信息的图像融合特征,然后使用二叉树对特征信息进行降维,降维特征作为深度信念网络的可视层输入量,弥补深度新信念网络无法达到图像局部特征要求的缺陷.通过训练好的深度网络模型对测试样本进行学习,在深度信念网络的最顶层对特征进行分类识别.实验结果表明,该方法能高精度实现人脸识别,且与其他方法比较,该方法性能优于其他方法,说明该方法具有可行性和有效性.  相似文献   

15.
目前的人脸特征匹配算法大多关注于单图像与单图像的匹配而不能有效利用图像序列之间的相关信息,因而提出了一种基于深度学习与约束稀疏表达的人脸特征匹配算法.通过CNN网络对人脸图像进行特征提取,并利用改进的稀疏表达方法自动选取相似的图像序列进行特征匹配,有效地利用了图像序列之间的相关信息.实验结果表明,该算法在LFW和AR数据库上取得了很好的效果并优于传统的SRC,L1-norm和CRC-RLS算法.   相似文献   

16.
在人脸识别系统中,深度学习由于强大的表征能力被广泛应用,但模型推理的高计算复杂度和特征表示的高维度分别降低了特征提取和特征检索的效率,阻碍了人脸识别系统的实际部署.为了克服这两个问题,本文提出一种基于深度特征蒸馏的人脸识别方法,该方法通过多任务学习实现大深度模型知识与领域相关数据信息的蒸馏,从而统一地压缩深度网络参数及特征维度.联合特征回归与人脸分类,以预训练的大网络为教师网络,指导小网络训练,将知识迁移得到轻量级的学生网络,实现了高效的特征提取.在LFW人脸识别数据集上进行了实验,学生模型在识别精度相比教师模型下降3.7%的情况下,模型参数压缩到约2×107、特征维度降到128维,相比教师模型分别获得了7.1倍的参数约减、32倍的特征降维及95.1%的推理复杂度下降,表明了方法的有效性和高效性.  相似文献   

17.
目前主流图像去雾算法输出的结果图像存在颜色失真、边缘模糊的问题.为改善上述问题,提出一种基于深度学习的图像去雾算法,所提算法由两个模块构成:注意力特征融合模块和雾霾模型参数估计模块.注意力特征融合模块用于充分提取雾霾图像的颜色、边缘特征;基于稠密连接空洞卷积自编码器的雾霾模型参数估计模块用于估计雾霾模型的参数,改善网络退化的问题.在浓雾图像、薄雾图像数据集上的实验表明,本文提出的算法有效地实现了图像去雾,与主流的图像去雾算法相比具有更高的结构相似性(SSIM),更低的均方误差(mean-square error,MSE)和边缘误差e○edge.  相似文献   

18.
针对深度网络对人脸噪声敏感,且学习过程容易忽视人脸结构信息的问题,提出融合子区域局部二值模式(local binary pattern,LBP)特征和深层聚合网络的人脸识别算法。将人脸图像划分为不同子区域,并采用局部二值模式对人脸进行预处理,获取子区域人脸的LBP特征。不同子区域LBP特征输入不同的稀疏自动编码器,实现深层特征提取;然后不同稀疏自动编码器的输出特征通过全连接方式实现特征聚合,获得人脸特征向量用于分类。通过大量实验获取了最优的聚合网络模型架构和网络参数取值,改善了人脸识别效果。  相似文献   

19.
为了提高基于深度学习网络方法在真实图像上的复原效果,提出了一种基于多尺度残差注意网络的复原方法。将退化图像输入到该模型中,利用浅层特征网络提取原始低质量图像的浅层特征;利用残差注意网络模块提取深层特征信息和通道相关性,使用局部连接和短跳跃连接进行残差学习;将浅层特征、通道相关性以及上下文深层特征信息输入到重构网络,利用具有不同感受野的特征进行图像复原。实验结果表明,相较于其他对比方法,该方法在图像去噪、图像增强和超分辨率等多个任务中获得最优的结果,能够在不引入伪影的情况下生成纹理细节丰富的清晰图像。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号