共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
3.
融合语音增强与后续补偿的抗噪声语音识别方法 总被引:2,自引:1,他引:2
为了提高基于隐含Markov模型的语音识别系统在噪声环境中的稳健性,研究了一种融合语音增强与后续补偿的抗噪声语音识别方法.在前端,语音增强有效地抑制背景噪声,从而提高了输入信号的信噪比.语音增强后的剩余噪声以及语音失真是对语音识别不利的因素,其影响将通过识别阶段的并行模型合并或特征提取阶段的倒谱均值归一化得到补偿.实验结果表明,此方法能够显著地提高语音识别系统在噪声环境中,特别是低信噪比条件下的识别精度,如对-5 dB的自噪声,该方法可将识别精度从11.7%提高至71.0%. 相似文献
4.
为了进一步提高矢量Taylor级数(VTS)算法的模型补偿精度以及在噪声环境下的识别性能,提出将无监督聚类与VTS算法相结合。无监督聚类算法利用噪声模型之间的Kullback-Leibler距离将含噪语音段划分为若干个子段。然后针对各个子段分别进行一阶Taylor级数展开,并在此基础上逐段估计噪声参数和补偿声学模型。该算法结合一个中文数字串识别系统进行实验,在Babble噪声和Gauss白噪声环境下该算法的误识率相对传统的VTS算法分别下降了27.7%和17.8%。证明这种结合无监督聚类的分段VTS算法能够更加有效地将语音和噪声在倒谱域上的非线性混合模型用一阶线性模型来近似。 相似文献
5.
参数共享是基于隐 Markov模型 (hidden Markovmodel,HMM)的语音识别系统的参数训练中的一个关键性问题 ,因此在语音识别的诸多领域中都有重要的应用。对参数共享的作用及其使用的聚类算法进行了分析研究 ,在此基础上提出改进合并分级聚类算法 ,并将其应用于 HMM的状态捆绑。实验表明 ,一个大规模词汇量的孤立词语音识别器采用 HMM的状态捆绑后 ,可以大大缩减识别过程的时空消耗 ,同时识别率仅有较小的损失 相似文献
6.
利用段长信息的改进连续语音识别算法 总被引:1,自引:1,他引:1
以基于段长分布的隐含Markov模型为基础,提出了一种改进的帧同步束搜索连续语音识别算法,使段长信息在连续语音识别中得到充分有效的利用,并与原算法作了比较。在该算法的具体实现上,建立了状态的局部路径组和全局活跃路径两种数据结构,并采用了帧同步快速实时算法来处理局部路径的剪枝和跳转。说明了段长参数的估计方法。介绍了非特定人大词汇量连续语音识别的实验,实验结果表明,利用段长信息改进识别算法比原识别算法字的误识率降低了6%。 相似文献
7.
为提高电子耳蜗植入者在噪声下的语音识别能力,提出了一种利用频率调制信息的算法。该算法根据人耳听觉机理,增加了频带选择法则。该法则对不同频带提取出的频率调制信息进行了有选择的传递,并在听觉仿真试验中得到验证:该算法既可以比传统幅度信息编码算法更有效地提高电子耳蜗植入者在噪声下的语音识别能力,又降低了不选择频带而全通道传递频率调制信息算法的复杂度(频率调制信息提取的计算量降低了37.5%),减少了内存占用,使之适合在临床上实时实现。 相似文献
8.
针对经典隐含Markov模型忽略了语音信号之间的依存关系的问题,提出一种线性特征变换——空间相关性变换,利用同一个说话人的不同语音单元之间的相关性(空间相关性)得到鉴别性能更好的新特征。该变换的最优变换矩阵在最小协方差准则下得到。识别系统采用新特征及其模型参数代替原特征及其模型参数进行Viterbi搜索。实现空间相关性变换的关键是最优变换矩阵的计算,提出了两种相应的算法。实验结果表明:该方法在说话人无关识别系统上取得了比自适应方法更好的性能,同时该方法与自适应方法结合应用可进一步提高系统性能。 相似文献
9.
基于卷积神经网络的连续语音识别 总被引:3,自引:0,他引:3
在语音识别中,卷积神经网络( convolutional neural networks,CNNs)相比于目前广泛使用的深层神经网络( deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比。在标准语音识别库TIMIT以及大词表非特定人电话自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强。 相似文献
10.
基于传统的Mel倒谱系数(MFCC)系列特征的语音识别系统在噪声环境中的识别性能会急剧下降。为了进行噪声环境中的自动语音识别,提出了一种反映语音信号谐振程度的特征:谐振强度,并用之代替传统MFCC特征中的能量维(零维倒谱C0,或者帧能量E)。在展览馆噪声、人群噪声和汽车噪声等情况下的语音识别实验结果表明:基于这种新特征的语音识别系统比基于传统特征的语音识别系统有更高的平均识别率和更好的抗噪声能力。 相似文献
11.
《东北师大学报(自然科学版)》2015,(4)
根据听觉语音学的知识,提出使用稀疏自动编码器在MFCC特征基础上进行深度学习,提取了深度特征模仿听觉神经的稀疏触动信号,有利于HMM模型语音识别精度的提高.实验结果显示,学习到的深度特征较MFCC特征在藏语语音识别正确率方面有明显提高. 相似文献
12.
连续语音识别中的说话人快速自适应技术 总被引:2,自引:0,他引:2
语音识别技术中说话人快速自适应技术受到普遍关注。该文综述了说话人快速自适应技术在国际上的研究现状 ,并且介绍了本研究组提出的快速自适应方法 ,即最大似然模型插值快速自适应框架及插值算法。与现有的相关自适应方法相比 ,该算法在更复杂的识别系统上同时实现了均值和协方差的自适应 ,并取得较好的自适应效果。当仅有一句自适应数据时 ,识别系统的误识率从 2 8.75 %下降到2 4 .93%。 相似文献
13.
麦宋平 《高技术通讯(英文版)》2009,15(2):141-146
This paper presents the design and implementation of a low power digital signal processor(THUCID-SP-1)targeting at application for cochlear implants.Multi-level low power strategies including algorithmoptimization,operand isolation,clock gating and memory partitioning are adopted in the processor designto reduce the power consumption.Experimental results show that the complexity of the Continuous Inter-leaved Sampling(CIS)algorithm is reduced by more than 80% and the power dissipation of the hardwarealo... 相似文献
14.
嵌入式语音识别Mahalanobis距离计算模块 总被引:1,自引:0,他引:1
为了达到嵌入式语音识别系统低成本、低功耗的目标,提出一种算法硬件映射方法.将基于连续隐含Markov模型语音识别算法中占系统总运算量的50%以上的Mahalanobis距离计算,映射为硬件实现的模块.通过该方法,系统在较低时钟频率下即可完成嵌入式语音识别中实时处理的要求,从而大大降低系统功耗.实验结果表明,该模块在0.18 μm 和舰工艺库下实现,仅需1.2 mm2, 包含64 kb 静态随机存储器.应用该模块可以大大提高嵌入式语音识别系统的性能,达到降低成本,降低功耗的目标. 相似文献
15.
作为一种人机信息交互技术,语音识别技术得到了广泛的应用。介绍了基于凌阳十六位单片机SPCE061A的语音识别系统,并且采用了以传统的线性预测倒谱系数(LPCC)与分形维数相结合的混合参数作为特征参数的语音识别方法。LPCC方法是体现说话人特定的声道共振特性的线性预测方法,而分形维数则可以定量的描述语音气流中的非线性混沌特征。实验结果表明,基于LPCC与分形维数混合参数的语音识别方法要比单一的LPCC参数语音识别方法识别效果好。 相似文献
16.
Distributed speech recognition (DSR) applications have certain QoS (Quality of service) requirements in terms of latency,
packet loss rate, etc. To deliver quality guaranteed DSR application over wirelined or wireless links, some QoS mechanisms
should be provided. We put forward a RTP/RSVP transmission scheme with DSR-specific payload and QoS parameters by modifying
the present WAP protocol stack. The simulation result shows that this scheme will provide adequate network bandwidth to keep
the real-time transport of DSR data over either wirelined or wireless channels.
Biography: Zhu Xiao-gang (1975-), male, Ph. D. candidate, research direction: blind signal processing, distributed computing,
etc. 相似文献
17.
为提高语音识别系统的性能,针对汉语语音的单音节结构的特点,提出了建立三音子识别单元的方法。这种方法完全利用语音学知识对上下文进行分类从而实现参数共享,而不同于传统的数据驱动的聚类共享。提出并实现了采用三音子单元的识别系统的训练算法和识别搜索算法。实验表明:基于语音学分类的三音子单元对识别性能有明显的改善,系统的首选误识率相对基线系统降低了28%。 相似文献
18.
用于语音识别的鲁棒自适应麦克风阵列算法 总被引:1,自引:0,他引:1
对现实环境中存在的混响以及非平稳干扰语音信源等因素导致的算法性能下降,提出了一种用于语音识别的鲁棒旁瓣对消算法。讨论了旁瓣对消算法在自适应麦克风阵列中的应用,分析了算法在不同的混响条件下、不同的干扰源的噪声抑制能力。该算法通过分帧处理将输入信号划分为一系列短时平稳的信号片段。根据当前帧的信噪比决定自适应滤波器的权系数更新方式。采用一定的范数约束来限制自适应滤波器权系数的误调整。实验结果表明该麦克风阵列在混响的现实环境中能够有效抑制平稳噪声源和交叠谈话背景干扰,提高了语音识别器的抗噪性能。 相似文献
19.
基于环境特征的语音识别置信度研究 总被引:2,自引:0,他引:2
传统的语音识别置信度方法基于各种静态特征进行分类判决,而忽略了词与周围环境之间的关系所携带的信息。为了进一步提高置信度特征的分类性能,该文提出了上下文环境、动态环境、句全局环境共3类5种环境特征,从空间与时间角度较全面地描述了词与环境之间的关系。实验结果表明:静态特征与环境特征联合分类的性能与只用静态特征相比有不同程度的提高,其中,静态环境与环境特征的二元联合最高有5.02%的相对改进,三元联合最高有6.11%的相对改进,说明环境特征确实是一种有价值的置信度特征,并且这几类环境特征之间存在一定的独立性。 相似文献
20.
针对目前连续语音识别中广泛使用的齐次HMM(hidden Markov model)模型识别精度低的现状,该文提出了三音子DDBHMM(duration distribution based HMM)识别方法。根据汉语的特点,设计了适用于连续语音识别的三音子。描述了识别中使用的MLSS(most likely statesequence)准则。设计了识别网络并阐明了用于三音子识别的帧同步识别算法。将三音子DDBHMM识别方法与三音子齐次HMM识别方法和双音子DDBHMM识别方法进行了实验对比,结果表明:采用三音子DDBHMM可以使得识别错误率分别下降0.95%和2.29%。说明该方法能够显著地改进连续语音识别性能。 相似文献