期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王怡斐韩俊刚樊良辉《重庆邮电大学学报(自然科学版)》2019,31(1):136-142

带噪语音可看成由独立的噪声信号和语音信号经某种方式混合而成,传统语音增强方法需要对噪声信号和干净语音信号的独立性和特征分布做出假设,不合理的假设会造成噪声残留、语音失真等问题,导致语音增强效果不佳。此外,噪声本身的随机性和突变性也会影响传统语音增强方法的鲁棒性。针对这些问题,使用生成对抗网络来对语音进行增强,给出一种基于Wasserstein 距离的生成对抗网络(Wasserstein generative adversarial nets, WGAN)的语音增强方法来加快训练速度和稳定训练过程。该方法无需人工提取声学特征,且使语音增强系统的泛化能力得以提升,在匹配噪声集和不匹配噪声集中都有良好的增强效果。实验结果表明,使用训练出的端对端语音增强模型后,语音信号的客观评价标准(perceptual evaluation of speech quality,PESQ)平均得到23.97%的提高。相似文献

2.

基于多维度注意力机制和复数Conformer的单通道语音增强方法

高盛祥莫尚斌余正涛董凌王文君《重庆邮电大学学报(自然科学版)》2024,(2):393-403

为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299％、1.462％,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。相似文献

3.

多特征全卷积网络的地空通话语音增强方法

高登峰杨波杨红雨刘洪《四川大学学报(自然科学版)》2020,57(2):289-296

为了研究空中交通管理领域中的语音增强问题,并且节约存储资源,提出了一个新的语音增强方法.在基于全卷积神经网络(FCN)的基础上加入了跳跃连接(Skip Connection),并引入次要特征来进行联合学习.具体而言,使用语音的对数功率谱(LPS)作为网络的主要训练特征,引入对数梅尔倒谱系数(L-MFCC)作为网络的次要训练特征,来联合优化网络参数.实验证明,相较于单个LPS特征输入的架构,结合LPS和L-MFCC的多特征网络架构具有更好的语音增强性能表现,且作为次要特征的L-MFCC还可以用作其它用途.实验还证明,跳跃连接的加入可以很好的提高FCN的网络性能,且相较于基线的深度神经网络(DNN)模型,新的网络结构在相同参数数量的情况下,要具有更好的性能. 相似文献

4.

基于Involution算子和交叉注意力机制的合成语音检测方法

邓泗波芦天亮彭舒凡刘晓文于子健《中国人民公安大学学报(自然科学版)》2023,(3):65-72

随着科学技术的迅速发展,基于深度学习生成的合成语音给语音认证系统和网络空间安全带来了新的挑战。针对现有检测模型准确率较低和语音特征挖掘不够充分的问题,提出了一种基于Involution算子和交叉注意力机制改进的合成语音检测方法。前端将语音数据提取线性频率倒谱系数(LFCC)特征和恒定Q变换(CQT)谱图特征,两个特征分别输入到后端的双分支网络中。后端网络使用ResNet18作为主干网络先进行浅层的特征学习,并将Involution算子嵌入主干网络,扩大特征图像学习区域,增强在空间范围内学习到的频谱图像特征信息。同时在训练分支之后引入cross-attention交叉注意力机制,使LFCC特征和CQT谱图特征构建交互的全局信息,强化模型对特征的深层挖掘。所提模型在ASVspoof 2019 LA测试集上取得了0.84%的等错误率和0.026的最小归一化串联检测代价函数的实验结果,展现了优于主流的检测模型。结果表明,改进的模型能够有效融合不同的频谱特征,提高模型的特征学习能力,从而强化模型的检测能力。相似文献

5.

贝叶斯非负矩阵分解语音增强的优化算法

胡永刚张雄伟邹霞张立伟郑云飞《解放军理工大学学报(自然科学版)》2015,(1):1-6

为改进传统贝叶斯非负矩阵分解(BNMF)语音增强算法的性能,提出基于高斯混合模型的贝叶斯非负矩阵分解语音增强算法。该算法分为训练和增强两个阶段,训练阶段,对纯净语音与噪声分别进行训练,得到纯净语音字典、噪声字典与联合字典;增强阶段,采用最小均方误差法(MMSE)从带噪语音中重构原始干净的语音,达到语音增强的目的。实验表明,该算法在提高语音质量和抑制背景噪声等方面,均优于非负矩阵语音分解(NMF)算法与BNMF算法。相似文献

6.

改进贝叶斯非负矩阵分解的语音增强算法

下载免费PDF全文

张立伟张雄伟胡永刚闵刚李轶南《解放军理工大学学报(自然科学版)》2015,(5):407-412

为了进一步提高增强语音的质量,基于传统的贝叶斯非负矩阵分解语音增强算法,考虑语音帧内原子间的相关性,提出了一种新的改进贝叶斯非负矩阵分解语音增强算法。该算法可分为训练和增强2个阶段:训练阶段利用该算法分别对纯净语音和噪声进行训练,得到纯净语音和噪声字典;增强阶段利用训练得到的纯净语音和噪声字典组成的联合字典结合,计算带噪语音时变增益,并利用最小均方误差估计得到增强语音频谱,进而重构增强语音。实验结果表明,该算法的对数频谱距离值和主观语音质量评估打分均优于非负矩阵分解(NMF)和贝叶斯非负矩阵分解(BNMF)等传统的语音增强算法,特别是在低信噪比条件下,该算法增强的效果更佳。相似文献

7.

基于注意力机制的卷积循环网络语音降噪

徐浩森姜囡齐志坤《科学技术与工程》2022,22(5):1950-1957

不同噪声在频谱上具有不同的特性,为了解决卷积神经网络对含有不同噪声的语音降噪的局限性,通过引入通道注意力机制作为卷积循环网络的中间层,将卷积层中不同功能的卷积核赋予不同的权重,使模型在训练时能够对输入数据更有针对性地去除噪声部分,从而达到更好的降噪效果。针对含有15种噪声的含噪语音分别应用循环神经网络、编解码卷积网络和卷积循环神经网络等三种模型进行降噪处理,结果表明引入注意力机制的模型相比于其他两种模型,在感知语音质量评价(perceptual evaluation of speech quality, PESQ)和短时客观可懂度(short time objective intelligibility, STOI)评分上都有所提高,且引入注意力机制的模型能够更好地保留语音的谐波信息。相似文献

8.

基于Sparse K-SVD学习字典的语音增强方法

黄玲李琳王薇易才钦郭东辉《厦门大学学报(自然科学版)》2014,(1)

提出一种基于Sparse K-SVD学习字典的语音增强方法,采用Sparse K-SVD算法自适应地训练一个可稀疏表示的冗余字典,在该冗余字典上采用正交匹配追踪(OMP)算法对带噪语音信号进行稀疏分解,利用稀疏系数矩阵重构纯净语音,实现语音增强.使用NOIZEUS语音库进行了一系列的语音增强实验,主客观评测数据表明,基于稀疏表示的语音增强方法(分别使用Sparse K-SVD和K-SVD训练字典)相对于传统语音增强方法(小阈值波法、谱减法、改进谱减法)可进一步改善语音质量;对字典训练时间进行统计,发现Sparse K-SVD算法训练字典消耗的时间为K-SVD算法训练时间的1/6~1/10,大幅度提高了计算效率. 相似文献

9.

基于Mixup数据增强的LSTM-FCN时间序列分类

王天刘兆英张婷刘博文李玉鑑《应用科技》2022,(2):8-14

在时间序列分类任务中,针对时间序列数据少和多样性导致深度学习模型准确率不高的问题,提出Mixup数据增强的长短期记忆网络–全卷积网络(LSTM-FCN)时间序列分类算法.该算法首先使用Mixup对原始数据进行数据增强,通过简单的线性插值对时序数据进行混合,得到新的混合之后的增强数据;然后使用增强数据训练LSTM-FCN... 相似文献

10.

基于多GPU的深层神经网络快速训练方法

薛少飞宋彦戴礼荣《清华大学学报(自然科学版)》2013,(6):745-748

近年来,深层神经网络(deep neural network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提高DNN的训练效率,该文研究了基于多图形处理器(graph-ic processing unit,GPU)的DNN快速训练算法。在TIMIT数据集上的音素识别实验显示:在基本保证识别性能的前提下,优化后的DNN快速训练方法在4个GPU下训练速度相比单GPU有约3.3倍的提升。实验结果表明该快速训练方法可以显著提升DNN模型的训练速度。相似文献