首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 296 毫秒
1.
为了提高跨模态人脸表示与合成的性能,针对语音与人脸图像2种模态数据,提出一种基于人脸参数化表示与稠密深度网络相结合的面部生成方法。针对输入语音模态,通过对信号进行频谱变换,将一维时域信号转换到二维频率域,可提取频域上稳健的特征描述;针对输出图像模态,利用主动外观模型对不同面部区域独立建模以降低区域间的相关性,并提取紧凑的人脸参数化特征;为了获得有效的跨模态学习性能,提出采用稠密连接的深度卷积神经网络学习语音、图像2种模态的回归预测,并通过预测的人脸参数进行面部重构,所采用的深度网络模型可以加强特征传播与特征复用,有利于增强面部细节的合成。在2组音视频数据集上验证了提出方法的有效性。  相似文献   

2.
为在保障网络训练速度的基础上进一步提高语音增强性能,提出一种融合注意力(Atten-tion)机制的准循环神经网络(QRNN)语音增强方法.通过QRNN序列信息并行计算的特性保证网络的训练速度,将Attention机制重新赋予权重的含噪语音序列作为QRNN层的输入,使网络更加关注目标语音序列信息,以提高语音增强模型的性...  相似文献   

3.
注意力机制能够挖掘与任务密切相关的重要信息并抑制非重要信息,在语义分割的深层特征表示中发挥着越来越重要的作用。本研究基于广泛应用的U-Net模型,提出了一种基于注意力机制的神经网络模型,针对边缘分割模糊的问题,将U-Net的压缩路径和扩展路径中的双卷积替换为卷积核选择模块,该模块允许网络的每一层根据输入信息进行自适应调整接受野的大小;另外,针对人像分割网络存在不同尺度的全局上下文信息被忽略的问题,采用多尺度预测融合的方法来利用不同尺度的全局信息,并采用双注意力模块汇总空间和通道两方面的注意力信息。大量实验表明,本文中方法的性能与U-Net、UNet++和Attention U-Net等网络相当或更好。  相似文献   

4.
为了优化高频率分辨率的希尔伯特时频谱的表达效果,提出一种基于卷积运算思想的希尔伯特时频谱平稳化和自适应增强方法.首先,由希尔伯特黄变换得到高频率分辨率的时频谱和边际谱,通过设定时域和频域平稳因子及权重得到相应的核矩阵,并依照卷积运算的过程对时频谱进行平稳化;然后,将平稳化之后的边际谱值作为时频谱中相应瞬时频率处谱线的增强因子,对时频谱进行自适应增强;最后,用UrbanSound8K数据集提取时频谱图作为特征,利用深度卷积神经网络进行验证实验.仿真结果表明:本方法能够有效提高希尔伯特时频谱的总体表达效果,自适应地改变时频谱的表现形式.  相似文献   

5.
移动通信用户的急剧增加需要开发以较低发送功率提供高传输率的移动通信系统,该文介绍了正交频分多路复用(OFDM)系统中两种采用辅助导频信号的信道估计模型,两种模型分别采用了时域一频域以及频域一变换域的变换方法;分析了在相同信道冲激响应条件下两种估计模型的性能,并讨论了两种方法的优缺点和适用环境,时域一频域模型被应用于自适应OFDM系统中的辅助导频信道和比特分配算法,通过与理想自适应系统相比较,研究了信道估计的误差对于系统性能的影响。  相似文献   

6.
行星齿轮箱振动信号包含多种频率成分和噪声干扰,频谱具有复杂的边带结构,容易对故障识别造成误导甚至引起错判.在不同故障状态下,行星齿轮箱振动信号的多域特征量将偏离正常范围且偏离程度不同,根据这一特点,提取振动信号的时域、频域特征参量用于故障识别.为了避免传统分析方法中负频率及虚假模态问题,增强对噪声干扰的鲁棒性,采用局部均值分解法将信号自适应地分解为单分量之和,提取时频域单分量瞬时幅值能量.针对多域特征空间构造过程中出现的高维及非线性问题,采用流形学习对数据进行降维处理.提出基于改进的虚假近邻点的本征维数估计及最优k邻域确定方法,并通过等距映射对多域特征空间进行降维分析.对于行星齿轮箱实验信号,根据样本流形特征聚类结果,分别识别出了太阳轮、行星轮和齿圈的局部故障,从而验证了上述方法的有效性.  相似文献   

7.
研究地震波激励信号及结构响应之间在时频域上的数值对照关系,对于结构动力分析方法的深入发展,及先进时域算法的频域考题验证均有重要意义.首先从理论上公式推导了复数域傅里叶频谱求解方法与实数域三角函数频谱求解方法之间的等价条件,从而在离散傅里叶变换之外,找到了一种可求解时程曲线针对任意频率点频谱的三角函数频谱算法.并针对阻尼体系的动力响应分析,进行了频域与时域算法在激励输入与结构响应领域的转换关系的解析推导,为结构动力响应求解提供了一种新思路.最后,以多质点的阻尼体系的动力响应分析为例数值验证了该方法的有效性.  相似文献   

8.
无参考输入的双话筒噪声抵消   总被引:1,自引:2,他引:1  
介绍了一种双通道的噪声抵消系统 .传统的频谱减法的语音增强需要预先知道噪声的特性 .但是 ,噪声的平稳性和可分离性在许多实际应用场合都无法满足要求 .提出采用两路话筒输入 ,以便动态获得噪声频谱的方法 .采用自适应校正滤波的同步算法 ,利用语音信号的相关性同步两路信号中的语音 ,通过抵消其中的语音成分获得噪声的频谱特性 .实验证明该方法能够获得很好的同步效果 .在获得噪声频谱的基础上用频谱减和维纳滤波两种方法进行了噪声抵消的对比实验 .对 0dB信噪比输入的信号可以获得约 9dB信噪比的提高 .用维纳滤波处理后的语音比频谱减法残留较低的“音乐声” .在非平稳条件下对噪声仍具有一定的跟踪能力  相似文献   

9.
人脸图像修复旨在修复输入人脸图像中的缺失区域,生成令人满意的高质量修复结果.然而当存在大面积缺失时,直接修复缺失人脸图像十分困难,此时修复网络的全局上下文信息感知能力是影响修复结果的关键.鉴于此,本文提出了软硬注意力相结合的双重自注意力模块.该模块通过全局相似度计算来获得软硬两种注意力特征,之后对两种注意力特征进行自适应融合,进而提高修复网络对全局上下文信息的感知能力.此外,本文进一步提出了多尺度生成对抗网络以加强对修复结果的监督,促使修复网络生成更高质量的修复结果.实验结果表明,本文方法在定量和定性评测上均优于五种先进的对比方法.  相似文献   

10.
随着科学技术的迅速发展,基于深度学习生成的合成语音给语音认证系统和网络空间安全带来了新的挑战。针对现有检测模型准确率较低和语音特征挖掘不够充分的问题,提出了一种基于Involution算子和交叉注意力机制改进的合成语音检测方法。前端将语音数据提取线性频率倒谱系数(LFCC)特征和恒定Q变换(CQT)谱图特征,两个特征分别输入到后端的双分支网络中。后端网络使用ResNet18作为主干网络先进行浅层的特征学习,并将Involution算子嵌入主干网络,扩大特征图像学习区域,增强在空间范围内学习到的频谱图像特征信息。同时在训练分支之后引入cross-attention交叉注意力机制,使LFCC特征和CQT谱图特征构建交互的全局信息,强化模型对特征的深层挖掘。所提模型在ASVspoof 2019 LA测试集上取得了0.84%的等错误率和0.026的最小归一化串联检测代价函数的实验结果,展现了优于主流的检测模型。结果表明,改进的模型能够有效融合不同的频谱特征,提高模型的特征学习能力,从而强化模型的检测能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号