首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 375 毫秒
1.
带噪语音可看成由独立的噪声信号和语音信号经某种方式混合而成,传统语音增强方法需要对噪声信号和干净语音信号的独立性和特征分布做出假设,不合理的假设会造成噪声残留、语音失真等问题,导致语音增强效果不佳。此外,噪声本身的随机性和突变性也会影响传统语音增强方法的鲁棒性。针对这些问题,使用生成对抗网络来对语音进行增强,给出一种基于Wasserstein 距离的生成对抗网络(Wasserstein generative adversarial nets, WGAN)的语音增强方法来加快训练速度和稳定训练过程。该方法无需人工提取声学特征,且使语音增强系统的泛化能力得以提升,在匹配噪声集和不匹配噪声集中都有良好的增强效果。实验结果表明,使用训练出的端对端语音增强模型后,语音信号的客观评价标准(perceptual evaluation of speech quality,PESQ)平均得到23.97%的提高。  相似文献   

2.
为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299%、1.462%,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。  相似文献   

3.
为了研究空中交通管理领域中的语音增强问题,并且节约存储资源,提出了一个新的语音增强方法.在基于全卷积神经网络(FCN)的基础上加入了跳跃连接(Skip Connection),并引入次要特征来进行联合学习.具体而言,使用语音的对数功率谱(LPS)作为网络的主要训练特征,引入对数梅尔倒谱系数(L-MFCC)作为网络的次要训练特征,来联合优化网络参数.实验证明,相较于单个LPS特征输入的架构,结合LPS和L-MFCC的多特征网络架构具有更好的语音增强性能表现,且作为次要特征的L-MFCC还可以用作其它用途.实验还证明,跳跃连接的加入可以很好的提高FCN的网络性能,且相较于基线的深度神经网络(DNN)模型,新的网络结构在相同参数数量的情况下,要具有更好的性能.  相似文献   

4.
随着科学技术的迅速发展,基于深度学习生成的合成语音给语音认证系统和网络空间安全带来了新的挑战。针对现有检测模型准确率较低和语音特征挖掘不够充分的问题,提出了一种基于Involution算子和交叉注意力机制改进的合成语音检测方法。前端将语音数据提取线性频率倒谱系数(LFCC)特征和恒定Q变换(CQT)谱图特征,两个特征分别输入到后端的双分支网络中。后端网络使用ResNet18作为主干网络先进行浅层的特征学习,并将Involution算子嵌入主干网络,扩大特征图像学习区域,增强在空间范围内学习到的频谱图像特征信息。同时在训练分支之后引入cross-attention交叉注意力机制,使LFCC特征和CQT谱图特征构建交互的全局信息,强化模型对特征的深层挖掘。所提模型在ASVspoof 2019 LA测试集上取得了0.84%的等错误率和0.026的最小归一化串联检测代价函数的实验结果,展现了优于主流的检测模型。结果表明,改进的模型能够有效融合不同的频谱特征,提高模型的特征学习能力,从而强化模型的检测能力。  相似文献   

5.
为改进传统贝叶斯非负矩阵分解(BNMF)语音增强算法的性能,提出基于高斯混合模型的贝叶斯非负矩阵分解语音增强算法。该算法分为训练和增强两个阶段,训练阶段,对纯净语音与噪声分别进行训练,得到纯净语音字典、噪声字典与联合字典;增强阶段,采用最小均方误差法(MMSE)从带噪语音中重构原始干净的语音,达到语音增强的目的。实验表明,该算法在提高语音质量和抑制背景噪声等方面,均优于非负矩阵语音分解(NMF)算法与BNMF算法。  相似文献   

6.
为了进一步提高增强语音的质量,基于传统的贝叶斯非负矩阵分解语音增强算法,考虑语音帧内原子间的相关性,提出了一种新的改进贝叶斯非负矩阵分解语音增强算法。该算法可分为训练和增强2个阶段:训练阶段利用该算法分别对纯净语音和噪声进行训练,得到纯净语音和噪声字典;增强阶段利用训练得到的纯净语音和噪声字典组成的联合字典结合,计算带噪语音时变增益,并利用最小均方误差估计得到增强语音频谱,进而重构增强语音。实验结果表明,该算法的对数频谱距离值和主观语音质量评估打分均优于非负矩阵分解(NMF)和贝叶斯非负矩阵分解(BNMF)等传统的语音增强算法,特别是在低信噪比条件下,该算法增强的效果更佳。  相似文献   

7.
提出一种基于Sparse K-SVD学习字典的语音增强方法,采用Sparse K-SVD算法自适应地训练一个可稀疏表示的冗余字典,在该冗余字典上采用正交匹配追踪(OMP)算法对带噪语音信号进行稀疏分解,利用稀疏系数矩阵重构纯净语音,实现语音增强.使用NOIZEUS语音库进行了一系列的语音增强实验,主客观评测数据表明,基于稀疏表示的语音增强方法(分别使用Sparse K-SVD和K-SVD训练字典)相对于传统语音增强方法(小阈值波法、谱减法、改进谱减法)可进一步改善语音质量;对字典训练时间进行统计,发现Sparse K-SVD算法训练字典消耗的时间为K-SVD算法训练时间的1/6~1/10,大幅度提高了计算效率.  相似文献   

8.
在时间序列分类任务中,针对时间序列数据少和多样性导致深度学习模型准确率不高的问题,提出Mixup数据增强的长短期记忆网络–全卷积网络(LSTM-FCN)时间序列分类算法.该算法首先使用Mixup对原始数据进行数据增强,通过简单的线性插值对时序数据进行混合,得到新的混合之后的增强数据;然后使用增强数据训练LSTM-FCN...  相似文献   

9.
近年来,深层神经网络(deep neural network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提高DNN的训练效率,该文研究了基于多图形处理器(graph-ic processing unit,GPU)的DNN快速训练算法。在TIMIT数据集上的音素识别实验显示:在基本保证识别性能的前提下,优化后的DNN快速训练方法在4个GPU下训练速度相比单GPU有约3.3倍的提升。实验结果表明该快速训练方法可以显著提升DNN模型的训练速度。  相似文献   

10.
针对IP和ATM此类基于分组原理传输信息的网络,进行实时语音通信时,存在因语音信息分组的可能丢失造成的服务质量(QoS)下降的问题,提出一种新的方法———主次型多任务语音数据分组(MSMTSP)传输法,以减少对语音通信质量的影响。实验表明,增强系统码字的信息分组即使丢失了15%,对解码语音质量影响也不大;核心系统码字的信息分组丢失率不到5%时,影响很小,10%时能明显察觉,15%时语音质量明显下降,但不影响可懂度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号