首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
针对噪声环境下语音识别系统性能下降的问题,提出一种基于语音时频相关性的Mel特征矢量聚类补偿算法。该算法首先实现掩码估计,利用纯净语音信号时域和频域的相关性,实现了时频块的有效划分和基于时频块的语音特征聚类。在此基础上,对带噪语音的Mel语谱进行特征补偿。采用HTK工具和TIDIGITS数据库加入不同类别噪声的语音测试结果表明:该算法在不同信噪比条件下,获得了较基于频域相关性聚类特征补偿算法更好的性能。  相似文献   

2.
为提高语音端点检测在低信噪比情况下的准确性,提出一种基于近邻传播聚类的语音端点检测算法.首先采用能量语音端点检测去除静音段;然后利用近邻传播聚类自动获取类别数的优点,有效地将语音细分为无语义语音和静音段、远场噪声段等各种类别;最后结合后处理方法,对语音端点做进一步过滤处理.实验结果表明:该算法在低信噪比的情况下,与传统的能量语音端点检测相比,其有效语音检测的漏警率相对下降13%,虚警率相对下降14%;在实际应用中,如声纹确认和声音检测等,与经典算法相比,该算法检测的准确率与效率等性能得到了显著提升.  相似文献   

3.
语音信号的激活检测(voice activity detection,VAD)是变速率语音编码的关键技术,用来检测通信时是否有语音片存在。在有噪环境下对语音信号的激活检测是非常重要而困难的。对传统子带谱熵算法进行了改进,提出了一种能够用于语音激活检测的新算法。该算法利用语音谱熵和噪声谱熵分布的不同,将信号的数字特征(方差、均值等)与传统子带谱熵相结合,用于区分语音段和非语音段。计算机仿真结果表明,在高斯白噪声环境下,改进后的子带谱熵算法能很好地区分说话人的语音段和非语音段,在某种程度上解决了传统语音激活检测算法结构复杂、参数难调、易受噪声影响等问题。  相似文献   

4.
一种改进的基于子带谱熵的语音激活检测方法   总被引:2,自引:2,他引:0  
语音信号的激活检测(voice activity detection,VAD)是变速率语音编码的关键技术,用来检测通信时是否有语音片存在.在有噪环境下对语音信号的激活检测是非常重要而困难的.对传统子带谱熵算法进行了改进,提出了一种能够用于语音激活检测的新算法.该算法利用语音谱熵和噪声谱熵分布的不同,将信号的数字特征(方差、均值等)与传统子带谱熵相结合,用于区分语音段和非语音段.计算机仿真结果表明,在高斯白噪声环境下,改进后的子带谱熵算法能很好地区分说话人的语音段和非语音段,在某种程度上解决了传统语音激活检测算法结构复杂、参数难调、易受噪声影响等问题.  相似文献   

5.
陈雪芳 《科学技术与工程》2013,13(12):3297-3300
提出了基于远近距离的说话人聚类算法:首先,使用端点检测算法把语音分割成读音段,然后,采用T2公式对近距离的说话人语音段进行聚类得到语音块,最后,使用谱聚类的方法估计说话人数目,对远距离的说话人(语音块)进行聚类。实验结果表明,在近距离的说话人聚类中,使用T2公式比使用BIC和KL在语音块准确率方面分别高出2.62%和13.84%,在远距离的说话人聚类中,使用谱聚类算法基本上可以把语音中的说话人数目计算出来,当说话人数目为15时,类纯度和说话人纯度可以达到78%,说明该算法可以有效地对说话人进行聚类。  相似文献   

6.
由于战场使用环境的特殊性,环境噪声成为军事命令语音识别技术实用化的一个主要障碍。该文利用模型补偿技术,对噪声环境年军事命令语音识别进行探索。重点研究噪声环境下的并行模型组合算法(PMC),详细论述其原理以及在噪声环境下的语音识别中的应用。实验使用了48个高炮射击口令,分别在3种不同噪声,不同信噪比条件下对该方法进行识别率测试,结果表明,该方法具有一定的实际应用价值。  相似文献   

7.
基于浊音语音谐波谱子带加权重建的抗噪声说话人识别   总被引:1,自引:0,他引:1  
提出了一个基于浊音语音谐波谱重建的说话人识别算法.该算法根据浊音语音短时频谱的结构特征和基音信息,对浊音语音谐波结构频谱进行子带加权重建,以补偿由噪声引起的训练与测试条件的失配.算法基于重建浊音频谱提取感知线性预测倒谱系数,与基音相组合作为说话人的语音特征参数矢量,采用高斯混合模型对说话人进行建模.仿真实验的结果表明:所提出的浊音谱重建方法对多种类型含噪语音的噪声补偿均具良好效果,可以明显提高在噪声环境下的与文本无关的说话人识别的识别率,特别是显著提高低信噪比环境下的识别率,而不会明显降低纯净语音和高信噪比环境下的识别率.  相似文献   

8.
无监督极限学习机在投影过程中保持原始高维空间中的稀疏或近邻结构,样本在高维空间中存在冗余信息,原始的数据结构不一定适应于投影后的低维特征空间.为此,结合无监督极限学习机和子空间聚类的自表示学习,提出投影自表示无监督极限学习机模型.该模型是面向聚类的特征提取方法,在投影过程中学习自表示子空间结构,从而使无监督极限学习机提取的特征自适应于聚类任务.在IRIS数据集、 6个基因表达和2个医学影像高维数据集上进行实验,结果表明该模型和算法是有效的.  相似文献   

9.
通过子带Wiener滤波结合PUM(Probabilistic Union Model)模型,实现在噪声环境下连续字语音识别的方法。该方法先通过对语音信号进行子带Wiener滤波预处理消除已知噪声,为PUM模型提供只有局部被噪声污染的语音信号,再利用PUM模型进行抗噪语音识别。试验表明在各种不同的噪声环境下,该新方法有更高的平均识别率。  相似文献   

10.
根据人耳听觉特性,提出新的同步多带最大似然线性回归算法用于噪声环境下语音识别。该算法采用最大似然作为参数估计准则,利用各频带信号同步感知和噪声污染假定的方法进行语音模型补偿,有效地提高了识别系统在噪声环境下的识别性能。  相似文献   

11.
The performance of automatic speech recognizer degrades seriously when there are mismatches between the training and testing conditions. Vector Taylor Series (VTS) approach has been used to compensate mismatches caused by additive noise and convolutive channel distortion in the cepstral domain, in this paper, the conventional VTS is extended by incorporating noise clustering into its EM iteration procedure, improving its compensation effectiveness under non-stationary noisy environments. Recognition experiments under babble and exhibition noisy environments demonstrate that the new algorithm achieves 35% average error rate reduction compared with the conventional VTS.  相似文献   

12.
矢量泰勒级数是一种有效的抗噪声鲁棒语音识别算法.然而在对数谱域,美尔滤波器组的不同通道之间有较强的相关性,因而难以从含噪语音中准确估计噪声的方差.提出了一种基于矢量泰勒级数的倒谱域特征补偿算法.该算法在倒谱域,用一个高斯混合模型描述语音倒谱特征的分布,通过矢量泰勒级数从含噪语音中估计噪声的均值和方差.实验结果表明,此算法能明显提高语音识别系统的性能,优于基于矢量泰勒级数的对数谱域特征补偿算法.  相似文献   

13.
封闭环境中远距离语音识别会受到混响效果的影响,从而降低语音识别率。混响建模(reverberation modeling for speech recognition,REMOS)是一种在模型域进行混响补偿的新方法,该方法在已知声源位置的情况下能有效提升远距离语音识别精度。但在实际应用中,往往难以预测声源的位置。利用最大后验概率的原理,基于对房间不同区域进行有区别补偿的思想,在按帧的隐马尔可夫模型 (hidden Markov model,HMM)补偿的基础上,提出一种在封闭环境中新的模型补偿方法。该方法利用K均值聚类K-means算法对房间冲击响应 (room impulse response,RIR)的优化集进行聚类,对所属相同类的混响模型进行合并处理,再把合并后的混响模型载入维特比算法中,对清晰语音的HMM模型进行按帧补偿。最后采用后验概率方法选择最佳补偿,使得模型域的混响补偿能最接近精确补偿。实验证明,该方法能进一步提升远距离语音识别的精度。  相似文献   

14.
语音识别中基于模糊聚类分析的参数聚类   总被引:1,自引:0,他引:1  
徐向华  朱杰  郭强 《上海交通大学学报》2004,38(12):2086-2088,2093
为减少语音识别中声学模型的参数量,提高参数训练的鲁棒性,基于声学决策树结构,提出利用模糊聚类分析方法对模型参数聚类,包括高斯聚类和方差共享.对大词汇量汉语连续语音识别的实验结果表明:高斯模糊聚类使高斯数减少25%时,识别率提高了0.15%.进一步做模糊方差共享,当方差减少到初始模型的24%,与同样参数量的未进行聚类的模型相比,误识率下降了3.01%,证明了模糊聚类分析在语音参数聚类中的有效性.  相似文献   

15.
由于缺乏类信息,使得无监督文本特征选择问题一直未较好地加以解决。为此,对该问题进行了研究并提出了一个基于论域划分的无监督文本特征选择。该方法主要是把论域划分的思想引入到无监督文本特征选择之中,其首先使用一种新型无监督文档进行文本特征初选以过滤低频的噪声词,然后再使用所给的基于论域划分的属性约简进行文本特征优选。实验结果表明这个方法能够克服文本聚类时缺乏类的先验知识的不足,可以较好地解决无监督文本特征选择问题。  相似文献   

16.
针对目前基于模糊C-均值聚类图像分割算法的噪声敏感问题, 提出一种基于无监督可能性聚类的自动加权图像分割算法. 该算法先应用均值漂移迭代确定可能性C-均值聚类算法的初始化中心, 利用可能性聚类的模式搜索性质自动确定聚类划分; 然后根据像素间灰度值关系进行图像加权, 通过将加权系数与像素噪声的可能性相关联, 降低噪声对图像分割的影响. 实验结果表明, 相对于基于模糊C-均值聚类的图像分割算法, 该算法不仅取得了较好的分割效果, 而且无监督分割时计算效率更高, 对噪声的鲁棒性更强.  相似文献   

17.
针对目前基于模糊C-均值聚类图像分割算法的噪声敏感问题, 提出一种基于无监督可能性聚类的自动加权图像分割算法. 该算法先应用均值漂移迭代确定可能性C-均值聚类算法的初始化中心, 利用可能性聚类的模式搜索性质自动确定聚类划分; 然后根据像素间灰度值关系进行图像加权, 通过将加权系数与像素噪声的可能性相关联, 降低噪声对图像分割的影响. 实验结果表明, 相对于基于模糊C-均值聚类的图像分割算法, 该算法不仅取得了较好的分割效果, 而且无监督分割时计算效率更高, 对噪声的鲁棒性更强.  相似文献   

18.
介绍了针对歌曲检索中出现的中英混合现象所开发的中英双语识别系统。在双语混合语音识别中,主要面临的2个问题:①在保证双语识别率的前提下控制系统的复杂度;②有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法(TCM),并将该方法与基于声学似然度准则的聚类方法进行了比较。实验结果表明:利用TCM进行音素聚类的识别性能优于基于声学似然度音素聚类的性能,最终得到的中英双语识别系统在纯英文测试集上的短语错误率(PER)相对基线单英文识别系统下降7.19%;在双语混合测试集上PER相对基线混合模型下降13.78%;同时在纯中文测试集上保持了基线单中文识别系统的性能。  相似文献   

19.
带噪语音可看成由独立的噪声信号和语音信号经某种方式混合而成,传统语音增强方法需要对噪声信号和干净语音信号的独立性和特征分布做出假设,不合理的假设会造成噪声残留、语音失真等问题,导致语音增强效果不佳。此外,噪声本身的随机性和突变性也会影响传统语音增强方法的鲁棒性。针对这些问题,使用生成对抗网络来对语音进行增强,给出一种基于Wasserstein 距离的生成对抗网络(Wasserstein generative adversarial nets, WGAN)的语音增强方法来加快训练速度和稳定训练过程。该方法无需人工提取声学特征,且使语音增强系统的泛化能力得以提升,在匹配噪声集和不匹配噪声集中都有良好的增强效果。实验结果表明,使用训练出的端对端语音增强模型后,语音信号的客观评价标准(perceptual evaluation of speech quality,PESQ)平均得到23.97%的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号