首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 224 毫秒
1.
本研究针对现有方法在实现风格迁移任务时只能提取图像特征的低阶统计量这一问题,考虑将风格迁移过程建模为一个特征分布匹配过程,提出了一个基于Wasserstein距离的判别器网络并以此定义了一个风格损失函数,Wasserstein判别器能够更好地拟合特征分布之间的Wasserstein距离,定义的风格损失也能够更好地区分图像特征的高阶统计信息之间的差异。同时,为了达到实时生成的效果,引入一个基于编码器-解码器结构和一个基于注意力机制的风格迁移转换模块作为生成网络,该生成网络能够有效融合原始图像特征并生成。具体而言,通过在计算损失模块的卷积层(CNN)后面添加Wasserstein判别器来计算风格损失,然后将风格损失与传统方法中计算为均方误差的内容损失一起监督生成网络的训练,在网络训练结束后,可以输入任意图像进行风格迁移测试。最后,在基准MSCOCO和WikiArt数据集上训练网络并测试结果,定性实验和定量实验结果表明,与现有方法相比,所提出的方法可以实现实时风格迁移,并且生成高质量风格化效果。  相似文献   

2.
对语音增强的方法研究开始于20世纪70年代,目前形成了4大类传统的语音增强方法,包括谐波增强法、谱减法、基于语音生成模型的算法和基于短时谱估计的算法.但语音信号本身为非平稳信号,无论时域分析或者频域分析,其本身的信号特征均不明显,同时噪声信号常常多个叠加,特征复杂、频带宽,现有语音增强效果并不理想,甚至容易引入音乐噪声.语音交流是人类的基本沟通交流方式,用途广泛,但是在语音通讯的过程中不可避免的会受到来自环境噪声、电气噪声、传输介质等干扰,干扰后将影响人的收听辨识效果或者影响其他语音信号的处理(如语音识别).因此,有必要在音频数字化后实行适当的增强措施来提高辨识度.基于此,提出一种综合了多种方法的新语音增强处理结构.该结构结合短时傅里叶变换、谱减法、噪声谱估计和机器学习技术等,实现更强的语音增强效果.通过与前馈BP网络及LSTM网络对比,实验证明了该方法的有效性.并验证使用GPU计算技术加速的可行性.  相似文献   

3.
基于Wasserstein距离的生成对抗网络(WGAN)将编码器和生成器双向集成于其模型中,从而增强了生成模型的学习能力,但其在优化目标中使用KL散度度量分布间的差异,会导致学习训练过程中出现梯度消失或梯度爆炸问题,降低模型鲁棒性.为克服这一问题,提出了一种基于Wasserstein距离的双向学习推理(WBLI)模型.文章首先建立了真实数据分布与隐数据分布双向学习网络,然后引入Wasserstein距离度量联合概率分布的差异性,并据此推导了可解的损失代价函数,给出了完整的网络学习模型和迭代算法.实验结果表明,WBLI模型有效缓解了传统GAN及其变种的模式坍塌问题,增强了训练学习的鲁棒性,可生产辨识度更高的样本.  相似文献   

4.
提出了1种基于变分自编码器和辅助分类器生成对抗网络的语音转换方法,实现了非平行文本条件下多对多的高质量语音转换.在该方法中,利用辅助分类器生成对抗网络替代基于变分自编码器和生成对抗网络模型中的Wasserstein生成对抗网络.由于辅助分类器生成对抗网络将特征样本的类别标签作为辅助信息,其鉴别器不仅能预测样本真假,还能预测生成样本所属的类别,从而提高了生成对抗网络的生成效果.充分的客观和主观评价表明:本文提出的方法明显优于基准模型,在显著改善语音质量的同时也有效提升了说话人个性的相似度.  相似文献   

5.
鲁棒语音识别技术综述   总被引:1,自引:0,他引:1  
鲁棒语音识别是为了解决噪声环境所引起的语音识别系统识别和训练不匹配的情况.依据噪声对语音识别系统的影响,从信号空间、特征空间及模型空间3个层面上分别对语音增强技术、特征增强技术及语音模型补偿、增强技术进行了总结,并分析了不同方法的特点、实现及应用.  相似文献   

6.
超分辨率生成对抗网络(SRGAN)的高分辨率图像质量较传统方法有明显提升,然而其存在训练过程不稳定、图像浅层特征未充分使用等问题,很大程度上影响生成图像的质量.为此,提出一种特征增强改进的SRGAN模型,使用信息蒸馏块.通过对长短途特征在图像通道上的拼接增强特征纹理信息,利用压缩单元消除图像特征中的冗余信息.此外,使用相对平均鉴别器替代原始SRGAN中的二分类鉴别器,保证生成对抗网络训练的稳定性.本研究基于4倍放大因子进行超分辨重建任务,并在BSD100和SET14数据集上进行实验结果的质化和量化评价.实验表明,该方法较之SRGAN在训练过程中具有更好的稳定性,生成的图像具有更清晰的细节纹理,取得了更佳的图像超分辨率重建效果.  相似文献   

7.
生成对抗网络(Generative adversarial networks,GAN)广泛应用于各种领域,尤其在图像生成方面.该模型由生成网络与判别网络2部分组成,在无监督的训练方式下,2个网络相互竞争相互提高.然而,GAN在训练时经常出现模式崩溃问题,进而导致模型收敛较慢,生成样本多样性较差.为解决这一问题,在深度卷积神经网络的基础上提出了一种多生成器生成对抗网络模型.该模型包含多个生成网络,每个生成网络均使用残差网络进行搭建,同时在生成网络间引入协作机制,以加快模型获取信息并减少参数量,最后将各生成网络的特征图进行融合得到最终图像输入到判别网络中.GAN在训练过程中还会出现梯度消失、训练不稳定问题.为避免出现这些问题,将Wasserstein距离和梯度惩罚引入模型的损失函数.通过在多个数据集上与多种相关方法进行实验比较,结果表明提出的模型在缓解模式崩溃问题、加快模型收敛速度以及减少参数量上均明显优于其他几种方法.  相似文献   

8.
由于音域信号的语音和音乐常常以混叠的形式出现,因此在许多应用中,希望能有效分离音域信号中的语音和音乐. 普通的分离方法一般采用基于频域信号的处理方式,而频域信号还原时需借助相位信息,导致还原的信息有偏差. 针对时域单通道音域信号分离效果差的问题,提出在对抗生成网络中引入联合训练与时序卷积的方法. 首先,对时域语音进行预处理;然后,将预处理过的数据送入时序卷积生成对抗网络生成器中进行分离;最后,将分离的干扰语音和纯净的干扰语音送到生成对抗网络判别器判别,并把判别结果反馈给生成器. 实验采用MIR-1K和data_thchs30数据集进行算法性能测试,结果表明,提出的单通道音域分离模型的PESQ和STOI指标平均提高了0.31和0.07,证明所提算法有效提升了音域信号中语音和音乐的分离效果.  相似文献   

9.
由单个图像建立其三维模型是计算机视觉领域的一个热门且具有挑战性的问题.现有的传统单视图三维重构算法在处理低分辨率图像时效果不好,在训练中由于三维图形的高维性,使网络也变得高度不稳定,导致模型重构效果差.针对传统三维重构算法存在的缺点,提出一种基于深度学习网络的改进模型,在模型中加入超分辨率、投影、对抗生成网络(generative adversarial network,GAN)等模块,采用模块化设计强制生成的三维形状与深度图像对齐,使得映射更加规则.在损失函数上运用Wasserstein GAN思想,引入惩罚项,使网络训练难度降低,减小网络模型对训练数据集的依赖,克服了传统算法存在的问题.实验证明,提出的模型较传统方法重构的三维模型更加逼真,符合客观事实.  相似文献   

10.
针对不同的语音增强算法对不同噪声的增强效果不同,提出了一种基于深度神经网络的噪声分类的语音增强算法。首先,使用深度神经网络(DNN)算法对噪声进行分类。分类算法包括训练阶段和分类阶段。在训练阶段,采用babble,car,street,train四中噪声对DNN进行训练;在分类阶段,将提取的噪声输入训练好的DNN中,得到分类结果,并对分类性能进行评估。其次,采用PESQ,LSD及SNR等语音评估方法,对不同的含噪语音在不同信噪比、不同语音增强算法下进行评估。语音增强算法包括子空间法、维纳滤波算法、谱减法及对数最小均方误差法(log MMSE),噪声包括babble,car,street,train,信噪比为-5db,0db和5db,并对通过评估得到的值采用平均值法得到噪声和语音增强算法的最佳匹配;最后,针对不同分类噪声,采用不同的增强算法进行语音增强,并对4种噪声之外的噪声根据本文算法选取相应的语音增强算法。  相似文献   

11.
语音增强是解决噪声污染的有效方法,它的首要目标是在接收端尽可能从带噪语音中恢复纯净的语音信号.讨论强背景噪声下的基于模糊系统的语音增强方法,并与减谱法语音增强算法进行比较.计算机仿真结果表明,该方法在大大消除背景噪声的同时,消除了音乐噪声,同时保持语音信号较好的可懂度.  相似文献   

12.
针对低信噪比下语音增强困难的问题及经验模态分解(empirical mode decomposition,EMD)在语音增强中的有效应用,提出了一种基于EMD的前后置滤波语音增强算法.将含噪语音信号进行卡尔曼滤波后做EMD分解,采用能量阈值法判断出含有残余噪声的本征模态函数(IMF),对其小波变换后与其余IMF重构为最终的语音增强信号.实验表明,在输入信噪比为-10~5dB的不同噪声环境下,以时域分段信噪比及语音质量感知评测PESQ作为评价指标,效果均优于单独的EMD、小波软阈值法及卡尔曼滤波算法,是一种有效的语音增强算法.  相似文献   

13.
自适应高斯混合模型语音增强方法   总被引:1,自引:0,他引:1  
陈立伟  王文姝   《应用科技》2009,36(7):11-15
语音增强是解决噪声污染的有效方法,它的首要目标是在接收端尽可能从带噪语音中恢复纯净的语音信号.针对噪声环境下的语音增强问题,提出了一种语音增强新方法.该方法利用小波子带的方向性特点以及小波系数尺度内的相关性,将小波系数的概率分布建模为一种自适应高斯混合模型,在贝叶斯框架中采用这种概率模型可以得到一种具有空间自适应性的贝叶斯萎缩函数.利用这种萎缩函数可以实现对小波系数的修正.仿真实验表明,该算法对于噪声有较好的抑制作用,该算法在主观和客观测试中都具有良好的语音增强效果,可以在语音识别、语音编码中获得应用.  相似文献   

14.
为降低噪声对语音通信的干扰,提出了一种基于谱减的语音增强算法的改进方法。根据噪声频谱的G auss统计模型修正语音增强过程中噪声频谱的估计方法,利用帧内、帧间约束估计每一个频点的先验信噪比,提出了一种简便的估计语音在每一个频点出现的概率的方法,得出了修正的语音增强算法。在白噪声以及坦克噪声环境中分别对算法的性能进行测试。实验结果表明:在几乎不损伤语音清晰度的前提下,该算法使“音乐噪声”得到了更好的抑制,同时信噪比提高了约8 dB以上。  相似文献   

15.
语音增强是语音信号处理领域一种传统且依然非常活跃的研究分支。单通道语音增强是指从单个麦克风采集的带噪语音中尽可能恢复出干净语音,在移动通信、语音交互、数字助听等领域有重要的应用价值。传统的单通道语音增强技术在处理平稳噪声时已取得较好的增强性能,但在非平稳噪声条件下增强效果依然难以令人满意。近年来,随着人工智能的快速发展,基于深度学习的单通道语音增强在处理非平稳噪声问题方面已取得明显的进展。通过系统梳理单通道语音增强中深度学习方法的发展,并按照技术发展脉络,分基于参数映射、基于生成对抗机制和基于弱监督3个方面进行综述,介绍三类方法的基本原理,分析典型文献的技术思路,总结三类方法的优势与存在的问题,最后对深度学习技术在单通道语音增强领域的发展进行了展望。  相似文献   

16.
为解决文本无关说话人识别中训练与识别环境不同导致模式失配的问题,提出了一种采用语音增强模块进行前端预处理的i-向量说话人识别系统,从而提高系统对于环境噪声的鲁棒性.为评估不同语音增强算法的性能,利用NIST08核心测试集进行仿真实验.采用IMCRA算法对语音进行噪声估计后,分别用维纳滤波法、MMSE-LSA、传统谱减法和多频带谱减法等4种方法进行语音增强前端处理,在基于i-向量的说话人识别系统下进行实验.实验结果表明采用了语音增强的系统具有一定抗噪声性能,并且在高信噪比条件下,基于多频带的谱减法在此系统下性能最佳,而低信噪比情况下MMSE-LSA算法更有优势.  相似文献   

17.
基于听觉模型的小波包变换的语音增强   总被引:8,自引:0,他引:8  
由于人耳频率分辨率是非线性的 ,用传统的线性信号处理方法 (如FFT)来模拟人耳基底膜的频率分析特性是比较困难的 .小波包算法有灵活的时频分析能力 ,可较好地符合人耳基底膜的频率分析特性 .在模拟人耳的听觉机理方面 ,用动态阈值法成功地对含噪语音进行了去噪处理 ,在去噪处理中引入音乐噪声的问题也较好地得到解决 .实验表明 :在单声道的条件下 ,其语音增强效果比传统的频谱减法有更高的清晰度和可懂度  相似文献   

18.
根据多分辨率分析的原理 ,提出了一种基于小波变换的语音增强方法。通过小波多分辨率分解 ,将受噪声污染的语音信号在不同尺度上展开 ,并对特定频段上的信号细节进行分析和处理 ,从而使对听觉影响最严重的频段上的噪声被有效地滤除掉 ,滤波后的语音信噪比得到较大的改善 ,其方法简便有效。  相似文献   

19.
基于线性预测的自适应语音增强技术   总被引:1,自引:0,他引:1  
提出了一种基于线性预测的自适应语音增强方法。该方法利用带噪语音的线性预测作为自适应滤波器的参考输入,使有色噪声的相关性隐含于参考输入之中,从而大大地提高了语音的信噪比。仿真实验证明.被环境噪声污染了的语音信号经自适应系统处理后,其信噪比提高了32.70dB。  相似文献   

20.
联合波束形成与谱减法的麦克风阵列语音增强算法   总被引:1,自引:0,他引:1  
考虑到封闭环境的散射噪声场中,传统波束形成方法及单通道谱减法对噪声抑制的局限性,提出一种将波束形成方法与谱减法相结合的麦克风阵列语音增强方法.该方法首先通过波束形成器的空间滤波作用,将波达方向不同的语音信号和噪声信号加以区别,再经过延时补偿单元的相应处理,从而达到衰减噪声的目的,然后采用谱减法对波束形成器输出端的残留噪声进行后置处理.仿真实验结果表明。在小房间混响情况下,与其他方法相比,该方法不仅运算量小。而且具有良好的噪声抑制性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号