首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
语音端点检测(voice activity detection,VAD)是在连续语音信号中,将语音和非语言片段分离的技术。VAD在语音识别、说话人识别、语音编码等领域起着重要作用。传统VAD算法在类型已知的噪声环境下可以达到较好的性能,但在实际情况中,未知噪声的影响通常会使系统性能下降显著,在差异化噪声下的VAD是端点检测的研究难点。在总结现有语音端点检测算法基础上,提出了一种基于深度神经网络的语音端点检测方法,同时结合维特比算法,与基于贝叶斯信息准则(bayesian information criterion, BIC)的混合高斯模型(gaussian mixture model,GMM) 语音端点检测系统进行对比,在大词汇连续语音识别系统中的实验结果表明,将深度神经网络结合维特比算法,应用于语音端点检测,在复杂噪声环境下取得了更好的效果,适应性更强。  相似文献   

2.
针对不同的语音增强算法对不同噪声的增强效果不同,提出了一种基于深度神经网络的噪声分类的语音增强算法。首先,使用深度神经网络(DNN)算法对噪声进行分类。分类算法包括训练阶段和分类阶段。在训练阶段,采用babble,car,street,train四中噪声对DNN进行训练;在分类阶段,将提取的噪声输入训练好的DNN中,得到分类结果,并对分类性能进行评估。其次,采用PESQ,LSD及SNR等语音评估方法,对不同的含噪语音在不同信噪比、不同语音增强算法下进行评估。语音增强算法包括子空间法、维纳滤波算法、谱减法及对数最小均方误差法(log MMSE),噪声包括babble,car,street,train,信噪比为-5db,0db和5db,并对通过评估得到的值采用平均值法得到噪声和语音增强算法的最佳匹配;最后,针对不同分类噪声,采用不同的增强算法进行语音增强,并对4种噪声之外的噪声根据本文算法选取相应的语音增强算法。  相似文献   

3.
为了进一步提高基于深度神经网络的语音增强方法的性能,针对单独使用卷积神经网络难以对含噪语音中的长期依赖关系进行建模的问题,提出一种基于卷积门控循环神经网络的语音增强方法.该方法首先采用卷积神经网络提取含噪语音中的局部特征,然后采用门控循环神经网络将含噪语音中不同时间段的局部特征进行关联,通过结合两种网络的不同特性,在语音增强中更好地利用含噪语音中的上下文信息.实验结果表明:该方法能够有效提高未知噪声条件下的语音增强性能,增强后的语音具有更好的语音质量和可懂度.  相似文献   

4.
针对现有语音增强算法在低信噪比(SNR)非平稳噪声环境下的表现并不理想这一问题,提出了一种基于深度学习的语音增强算法.首先,构建了一个深度神经网络(DNN),然后从四个不同分辨率的耳蜗中提取了多分辨率听觉倒谱系数(MRACC)作为神经网络的输入,该系数既关注了细节的高分辨率特征,又把握了全局性的低分辨率特征;其次,跟踪噪声变化构建了一个自适应掩蔽阈值(AM)作为神经网络的训练目标,该阈值能够依据噪声调节理想二值掩蔽(IBM)和理想软掩蔽(IRM)的权重;最后,将估计的自适应掩蔽阈值用于对含噪语音进行增强.实验结果表明:相较于对比算法,该算法不仅可以进一步提高语音质量和可懂度,而且能够抑制更多的噪声.  相似文献   

5.
在语音信号处理系统中,基于帧能量的语音端点检测(voiceactivitydetection,VAD)往往受到语音段能量不平稳及噪声的影响,为了提高语音端点检测的性能和鲁棒性,引入视觉信息。该文提出采用基于数据驱动的线性变换生成视觉特征,在提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明:同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。  相似文献   

6.
近来,一种结合语音识别中深度神经网络(deep neural network,DNN)模型和说话人识别中身份认证矢量(identity vector,i-vector)模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能,该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量,从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征,基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。  相似文献   

7.
基于支持向量机与多观测复合特征矢量的语音端点检测   总被引:1,自引:0,他引:1  
该文提出了一种新的多观测复合特征(MO-CF)用于基于支持向量机(SVM)的语音端点检测(VAD)。该特征是由2个子特征经平衡因子加权构成。特征的优化目标是寻找能使VAD的性能曲线下面积(AUC)最大化的平衡因子,以综合各个子特征的优点。在子特征选择方面,要求各个子特征不仅本身具有较好的性能,而且存在互补性。针对该要求,提出2种组合特征MO-CF1和MO-CF2。由多观测信噪比(MO-SNR)特征与多观测最大概率(MO-MP)特征复合而成的MO-CF2比MO-CF1更稳健。实验结果表明:在多种噪声环境下,相比于已有的9种VAD算法,该算法具有更好的性能和更高的稳健性。  相似文献   

8.
为了提高航空弹药的供应保障效率,将变异粒子群优化(MPSO)融入深度神经网络(DNN),研究航空弹药训练消耗预测问题。通过DNN确定网络各层的最优激活函数,基于MPSO参数寻优得到网络各层最优的权值和阈值,进而构建MPSO与DNN融合的航空弹药训练消耗预测模型。实验研究表明,该文组合预测模型在对5年数据的预测中均方误差为0.000 9,与粒子群优化-深度神经网络(PSO-DNN)模型、DNN模型以及反向传播神经网络(BPNN)模型相比具有更好的预测性能。  相似文献   

9.
为提高卷积环境下语音识别系统的鲁棒性,提出了一种基于时/频ICA(independent component analysis)的卷积噪声模型估计方法.所提算法首先使用ICA方法从含噪语音信号中提取纯净语音信号的短时功率谱,然后在MEL滤波器组域内将含噪语音的短时谱减去纯净语音的短时谱,并根据去噪后卷积噪声的短时谱估算其HMM(hidden markov model)模型.在仿真和真实环境下进行了语音识别实验,其识别正确率相比较传统的卷积噪声估计方法分别提升了4.70%和4.75%.实验结果表明,论文所提算法能够实现对卷积噪声的精确估计,并有效提升卷积噪声环境下语音识别系统的性能.  相似文献   

10.
近年来,深层神经网络(deep neural network,DNN)被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提高DNN的训练效率,该文研究了基于多图形处理器(graph-ic processing unit,GPU)的DNN快速训练算法。在TIMIT数据集上的音素识别实验显示:在基本保证识别性能的前提下,优化后的DNN快速训练方法在4个GPU下训练速度相比单GPU有约3.3倍的提升。实验结果表明该快速训练方法可以显著提升DNN模型的训练速度。  相似文献   

11.
低资源条件下的语音关键词检测是一个具有挑战性的问题,因为传统的基于大词汇量连续语音识别(LVCSR)的语音关键词检测方法不再适用.针对此问题提出了一种基于深度神经网络(DNN)输出层后验概率特征和改进的动态时间规整(DTW)算法的语音关键词检测方法.采用无监督高斯混合模型(GMM)和中、英文DNN音素模型得出的输入特征构建互补的子系统,并在SWS2013多语种数据集上进行实验.结果表明:相对于基线系统,分数层面的多语种、多系统融合能够有效地提升语音关键词检测系统的性能.  相似文献   

12.
该文提出了一种适于说话人辨认的自适应频率尺度变换,基于说话人信息在不同频带中的非均匀分布性质,通过F比衡量不同频率子带对说话人信息的贡献大小,设计自适应频率滤波器,提高贡献大的频带的频率分辨率,降低贡献小的频带的频率分辨率,提取鉴别性特征DFCC。干净语音环境下,不同测试文件的实验表明,该文提出的DFCC特征的识别率比传统MFCC特征平均提高了1.45%,表明特征的稳定性好,对语音内容不存在依赖性;在不同信噪比的噪声环境下,识别率平均提高了6.37%,表明DFCC特征能够充分利用语音频带中包含的说话人信息,具有良好的抗噪性能。  相似文献   

13.
针对计算机层析成像(CT)偏置扫描滤波反投影(FBP)重建算法中加权函数形式复杂、抑噪性能不足的问题,该文提出了一种形式简洁、连续光滑的Sigmoid指数型加权函数。通过对偏置重建过程进行Fourier变换,推导得到加权函数对白噪声的频域响应余项,相较Parker、Wang这2种加权函数,该文函数频域响应余项的高频部分幅度更低。该文分别进行了扇形束与锥形束几何在无噪声和有噪声情况下的偏置扫描仿真实验,重建图像采取主客观相结合的方法进行评价。结果表明:在理想无噪声条件下,3种加权函数重建图像无显著差异;在有噪声条件下,该文函数重建图像整体平滑、边缘锐利、对比度突出;F-范数、均方差(MSE)、对比度噪声比(CNR)这3项指标均有改善。相较Parker与Wang函数,该文函数形式简洁且抑噪性能更为优异。  相似文献   

14.
针对加性有色噪声干扰,提出了一种单通道输入基于信号子空间的话音增强算法。算法中使用自适应的方法跟踪KLT(Karhunen—Loeve Transform)阵。运用一种近似模型来表述有色噪声的特性,并基于噪声平稳的假设,通过采用预处理技术的语音活动性检测(VAD:Voice Activity Detection)单元获取噪声样本,用于下一语音帧中噪声特性的估计和增强处理。实验表明,算法对于有色噪声干扰下的语音信号有较好的增强效果,并且性能优于改进减谱法。  相似文献   

15.
为了提高在噪声环境下的语音识别性能,提出一种融合信号级和特征参数级抗噪的抗噪算法.该算法首先对带噪语音用最小均方误差估计法进行语音增强,后端对原始的带噪语音运用自相关法,以有效抑制加性和卷积噪声.实验结果表明,该算法能有效提高系统在噪声环境下,特别是低信噪比情况下的识别率.  相似文献   

16.
针对目前说话人识别系统中噪声使得识别率严重下降的问题,在特征提取前用小波阈值去噪方法对带噪语音进行去噪处理.对于小波阈值函数以及阈值的选取进行研究,提出一种改进的阈值函数,小波阈值中的噪音方差估计采用基于实际噪音方差估计的谱熵法,将改进的小波阈值去噪结合一种二级判断模型提高噪声环境下的说话人识别率.在不同信噪比条件下进行试验,改进的小波阈值去噪法优于传统小波阈值去噪方法,改进后的阈值函数与二级判断模型相结合的识别率比原始语音DTW模型提高了7.9%,比原始语音GMM提高了4.6%,对于短时语音有较好的识别率.  相似文献   

17.
为了提升说话人识别技术在复杂噪声环境下的识别性能,提出了一种基于高斯均值矩阵和卷积神经网络的鲁棒性说话人识别方法,应用于纯净语音训练出的模型上测试含噪语音的场景.其中高斯均值矩阵是采用最大后验概率(MAP)对传统的梅尔频率倒谱系数(MFCC)特征进行自适应操作得到的,这一操作增加了帧与帧之间的关联性,使特征携带更丰富的说话人身份信息.同时采用卷积神经网络进一步对帧层面的信息进行对准,并从数据中学习到更有利于说话人识别的特征表示,从而提升说话人识别的鲁棒性.实验结果表明在Libri语音数据集上,所提出方法的鲁棒性优于GMM-UBM和GSV-SVM算法.  相似文献   

18.
提出一种基于非下采样Contourlet变换的径向基神经网络(RBF)自适应阈值去噪方法.在NSCT域通过RBF神经网络使目标误差函数GCV(T)的最小化,从而确定最优阈值,再通过软阈值函数去噪.利用NSCT的平移不变性来抑制伪Gibbs失真,从而能完整地保留图像的纹理和边缘等信息.实验结果表明,该方法可以有效去除高斯噪声,提高图像的峰值信噪比.  相似文献   

19.
采用径向基函数神经网络在时域上对含噪语音信号进行降噪处理.针对语音信号的短时平稳性以及噪声的随机性,对语音信号进行分帧预处理;用分帧后的纯净语音信号作为径向基函数网络的教师信号,并利用Matlab神经网络工具箱设计和训练网络.实验结果表明,径向基函数网络作为语音信号滤波器,可有效地抑制语音信号中的白噪声,具有良好的降噪性能.  相似文献   

20.
语音合成和语音转换等技术正逐渐成为合成语音的主流方法,合成语音对社会稳定和国家安全都具有潜在的风险。为进一步提高合成、转换伪造语音检测的准确率,从混合网络模型,特征选择出发,提出了基于CNN-RNN-DNN网络的3种混合网络模型,分别为CNN-LSTM-DNN、CNN-GRU-DNN、CNN-BiLSTM-DNN。模型中卷积神经网络(convolutional neural network, CNN)部分可以进行下采样,循环神经网络(recurrent neural network, RNN)部分解决语音中的时序问题,深度神经网络(deep neural network, DNN)部分则实现分类功能。每种混合网络模型包含20层网络层。对提取的6种声学特征进行实验,其中CNN-LSTM-DNN+MFCC的组合表现最优,等错误率为5.79%,比ASVspoof2019提供的B02基线系统低28.43%。比较了3种混合网络结合6种特征的表现并增加了其与4种单独网络的对照实验,结果表明本文提出的混合网络模型具有性能稳定、准确率高等优点且梅尔频率倒谱系数(mel-frequency cepstr...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号