期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈立伟章东升宋宪晨杨洪利《应用科技》2007,34(9):41-45

基音是指人们发浊音时声带振动所引起的周期性,而声带振动频率的倒数就是基音周期.语音信号处理中精确提取特定语音的基音周期有重要的意义,基音周期的检测无论在语音信号的合成、编码还是识别方面,都起着非常重要的作用.该文依据数字语音信号的特点,设计了一种用于语音处理的层叠滤波算法,合理选择结构元素构筑了一组用于汉语语音基音轨迹平滑的层叠滤波器,仿真实验结果表明,这种方法对于随机误判点与传统的基于中值与线性平滑的组合平滑相比效果更佳,同时也证明了层叠滤波器用于语音信号研究的可行性. 相似文献

2.

矢量量化在语音识别中的应用

唐熙曾姜建新《西北大学学报(自然科学版)》1989,19(4):43-46

本文评述了矢量量化法用于语音识别研究的现状,并提出一种新的识别方案——将考虑能量信息的多段码书矢量量化技术应用于汉语孤立词语音识别。实验证明该法确实可在保证较高识别精度的前提下,大大加快识别速度。相似文献

3.

调制域谱减法用于鲁棒性语音识别 总被引：2，自引：2，他引：0

胡丹曾庆宁龙超《科学技术与工程》2016,16(4)

针对语音识别在实际环境中缺乏稳健性的问题,提出了将调制域谱减法应用于语音识别前端的方法。先将语音信号变换到调制域,在调制域用谱减法将信号增强,在减少语音畸变的基础上提高信噪比,然后再进行识别。仿真实验表明,调制域谱减法能在较大的信噪比区间内提高系统识别率,证明此方法能显著提高语音识别系统的抗噪声能力。相似文献

4.

Small-Space Microphone Array Fractional Delay Algorithm Based on FIR Filter for Cochlear Implant

陈又圣宫琴《清华大学学报》2011,16(1):90-94

Directional speech enhancement of signals from microphone arrays is an effective way to improve speech recognition for cochlear implant users.The strict implant size limitation results in a short distance between microphones.The fractional delay problem due to the short distance between microphones is solved by a maximal flat (Maxflat) finite impulse response (FIR) filter,using the Maxflat error criteria at a low frequency containing most of the speech information and energy.The fractional Maxflat FIR filter approximates the ideal digital fractional filter at the magnitude response,phase response,and phase delay characteristics,and is also very low order.The results demonstrate that the Maxflat FIR filter accurately and effectively solves the fractional digital delay and is very suitable for real-time speech processing in practical cochlear implant products. 相似文献

5.

Nonlinear Time-Frequency Distributions of Spectrum Energy Operator in Large Vocabulary Mandarin Speaker Independent Speech Recognition System

王作英《清华大学学报》2003,8(6):667-671

This work demonstrates the use of the nonlinear time-frequency distribution (NL TFD) of a discrete time energy operator (DTEO) based on amplitude modulation-frequency modulation demodulation techniques as a feature in speech recognition. The duration distribution based hidden Markov module in a speaker independent large vocabulary mandarin speech recognition system was reconstructed from the feature vectors in the front-end detection stage. The goal was to improve the performance of the existing system by combining new features to the baseline feature vector. This paper also deals with errors associated with using a pre-emphasis filter in the front end processing of the present scheme, which causes an increase in the noise energy at high frequencies above 4 kHz and in some cases degrades the recognition accuracy. The experimental results show that eliminating the pre-emphasis filters from the pre-processlng stage and using NL TFD with compensated DTEO combined with Mel frequency cepstrum components give a 21.95% reduction in the relative error rate compared to the conventional technique with 25 candidates used in the test. 相似文献

6.

一种基于自适应模糊滤波的语音增强方法 总被引：1，自引：0，他引：1

下载免费PDF全文

王金明张雄伟《解放军理工大学学报(自然科学版)》2003,4(1):17-20

在语音识别和语者识别中，通常需要先将输入的语音信号进行去噪处理，这样可使识别的正确率大大提高，通常采用基于LMS算法和RLS算法的自适应线性滤波器来进行去噪。提出了一种基于自适应模糊滤波器的语音增强方法，该模糊滤波器是一种非线性滤波器，它在语音信号的特征域空间采用参数映射的方式来滤除噪声，并能够进行自适应结构调整和参数更新。实验结果表明，采用自适应模糊滤波器来滤除噪声比线性滤波器具有更好的效果。相似文献

7.

基于加权组合过零峰值幅度特征的抗噪语音识别

梁五洲张雪英《太原理工大学学报》2006,37(1):84-86

基于人耳听觉特性提出一种新的抗噪音识别特征:加权组合过零峰值幅度特征,是对过零峰值幅度特征的一种改进。加权组合过零峰值幅度特征以语音数据和差分语音数据作为处理对象,通过计算它们的上升过零率获得频率信息,经幅度非线性压缩获得密度信息,并根据人耳对声音的感知特点对其进行加权,形成最终的输出特征,识别网络使用HMM。仿真实现了使用新特征与原特征的算法识别结果,证明了新特征具有较高的识别率和优良的抗噪性能。相似文献

8.

一种面向语音识别的新型神经网络 总被引：1，自引：0，他引：1

王晓明郑宝玉《南京邮电大学学报(自然科学版)》1998,(4)

提出了一种新型神经网络模型,描述了该网络的工作原理和训练方法以及识别算法。为克服神经网络对时序信号建模能力差的缺点,引入了非线性分段处理和代表帧特征提取方法。最后介绍了根据这一模型所设计的一个汉语语音识别系统,试验表明该网络在汉语语音识别方面具有较大的潜力。相似文献

9.

基于EMD的前后置滤波语音增强算法

潘晴冉福星李雅昆《河南师范大学学报(自然科学版)》2018,(3):33-39

针对低信噪比下语音增强困难的问题及经验模态分解(empirical mode decomposition,EMD)在语音增强中的有效应用,提出了一种基于EMD的前后置滤波语音增强算法.将含噪语音信号进行卡尔曼滤波后做EMD分解,采用能量阈值法判断出含有残余噪声的本征模态函数(IMF),对其小波变换后与其余IMF重构为最终的语音增强信号.实验表明,在输入信噪比为-10~5dB的不同噪声环境下,以时域分段信噪比及语音质量感知评测PESQ作为评价指标,效果均优于单独的EMD、小波软阈值法及卡尔曼滤波算法,是一种有效的语音增强算法. 相似文献

10.

Stream Weight Training Based on MCE for Audio-Visual LVCSR 总被引：2，自引：0，他引：2

刘鹏王作英《清华大学学报》2005,10(2):141-144

In this paper we address the problem of audio-visual speech recognition in the framework of the multi-stream hidden Markov model. Stream weight training based on minimum classification error criterion isdiscussed for use in large vocabulary continuous speech recognition (LVCSR). We present the lattice rescoring and Viterbi approaches for calculating the loss function of continuous speech. The experimental results show that in the case of clean audio, the system performance can be improved by 36.1% in relative word error rate reduction when using state-based stream weights trained by a Viterbi approach, compared to an audio only speech recognition system. Further experimental results demonstrate that our audio-visual LVCSR system provides significant enhancement of robustness in noisy environments. 相似文献

11.

基于串扰判决反馈信道均衡算法的语音通信系统设计

梁计锋《科学技术与工程》2019,19(25):231-237

在强电磁干扰环境下,由于语音通信受到通信信道的快速时变衰落和码间干扰的影响,导致信道不均衡,降低了语音通信质量。提出一种基于串扰判决反馈信道均衡的语音通信系统的设计方法。该方法采用横向滤波器进行电磁干扰滤波器设计,利用语音通信信息传输信道频率特性的逆大于信息自身带宽的特征,通过调整均衡器参数进行,进行串扰判决反馈设计,结合信道自适应均衡处理技术,进行强干扰环境下语音通信信道均衡,以达到语音通信系统的优化。系统仿真结果表明,该语音通信优化系统具有抗电磁干扰能力及滤波性能较好、输出信噪比高、通信距离远、通信速度快、可靠性高等优点。相似文献

12.

一种时间规整算法在神经网络语音识别中的应用 总被引：6，自引：0，他引：6

史笑兴顾明亮王太君何振亚《东南大学学报(自然科学版)》1999,29(5):47-51

提出一种新的网络结构,这种网络能够很好地解决神经网络语音识别中的时间规整问题。该网络从输入语音信号的特征矢量序列中提取一组固定数目的特征矢量,然后将这组特征矢量馈入神经网络分类器进行识别。和其他的神经网络语音识别方法相比较,用这种网络进行前端处理,可以缩短后端神经网络分类器的训练和识别时间,简化分类器的网络结构并保持较高的识别率。相似文献

13.

嵌入式中等词汇量英语语音识别片上系统 总被引：1，自引：0，他引：1

王国梁梁维谦刘加刘润生《清华大学学报(自然科学版)》2005,45(10):1393-1396

针对目前嵌入式英语语音识别系统中识别性能较差或硬件资源占用较大的问题,提出了一个在16 b定点数据信号处理语音芯片上实现的非特定人、中等词汇量英语命令字识别系统。该系统采用基于连续隐含M arkov模型(con tinuous dens ity h idden M arkov m ode l,CDHMM)的两级识别网络,通过应用改进的音素体系、B ayes ian信息准则模型参数选择算法、决策树和数据驱动相结合的状态聚类方法、最小互信息改变准则特征选择算法,在保证识别率的前提下,大大降低了模型的存贮空间和计算复杂度。实验表明,对1 235词的英语短句的识别率为96.41%,识别时间为0.46倍实时。相似文献

14.

Mel 频率下基于 LPC 的语音信号深度特征提取算法 总被引：1，自引：0，他引：1

罗元吴承军张毅黎小松席兵《重庆邮电大学学报(自然科学版)》2016,28(2):174-179

针对传统语音信号二次特征提取方法在保证识别率的前提下,实时性较差的问题,提出一种Mel频率下基于线性预测系数(linear predictive coefficient,LPC)的改进的语音信号深度特征提取算法.该方法根据人耳的听觉特性把LPC在Mel频率下进行非线性变换,再进行微分、高阶微分和按比例重组等步骤,得到一种既考虑声道激励又兼顾人耳听觉的新特征参数,从而大大减少传统语音信号深度特征提取的计算量,在不影响识别效率的情况下,极大提高系统的实时性.最后,将该算法在智能轮椅平台进行有效性验证,大量实验表明,语音控制系统实时性差的问题在使用该算法后能够得到明显改善,该算法既保证了特征提取识别率,也有效地改善了系统的实时性.在一定程度上使语音控制智能轮椅更具实用性. 相似文献

15.

一种基于量子势阱组的说话人特征提取方法

王洋潘平田庚《科学技术与工程》2015,15(1)

说话人特征提取是说话人识别系统中的关键环节,优良的特征提取算法既能有效反映说话人的基本特征,又能为识别的有效性提供保证.根据量子势阱理论,论文以透射系数、能量和频率的对应关系为切入点,构造出使频率和势阱一一对应的势阱组.针对语音信号的特点,将一帧语音信号视为一个量子态,利用势阱分离能量的特性,通过势阱组提取出信号的能量谱特征,并以此作为特征参数,探索了一种基于量子势垒组的说话人特征提取方法.仿真结果表明,在相同条件下,该方法可以降低算法的复杂性并能够有效的提取说话人特征,为说话人特征提取提供了新的研究方向. 相似文献

16.

基于小波变换的语音增强去噪方法 总被引：4，自引：0，他引：4

江铭炎《山东大学学报(理学版)》2001,36(2):201-204

将小波变换应用到语音识别系统中,提出了在语音信号预处理阶段基于小波变换估计的维纳滤波算法,结合小波变换的阈值处理方法对语音信号进行去噪处理,模拟实验表明该方法去噪效果较好. 相似文献

17.

基于OMAP5912和RSC364的语音识别系统实现

张松灿梁云朋曹哲《河南科技大学学报(自然科学版)》2008,29(5)

介绍一种嵌入式语音识别系统的设计与实现,整个系统以TI公司的双核(ARM DSP)处理器芯片OMAP5912为控制核心,采用SENSORY公司的RSC364语音芯片来实现语音的识别与合成,并进行语音信号的采集和播放,整个系统结构简单,集成度高.驾驶员利用该系统可通过语音命令控制车上设备及获得语音反馈信息,系统也可以作为一嵌入式语音设备使用,具有较大的市场应用前景. 相似文献

18.

一种新型语音识别系统 总被引：1，自引：0，他引：1

刘筠卢超《成都大学学报(自然科学版)》2008,27(3)

提出一种新型语音识别系统,采用帧能量与帧过零率的乘积作为指标量进行语音端点检测,以MFCC作为语音信号特征矢量,基于HMM语音识别模型进行语音识别.同时,提出了一种新的抗噪语音识别方法,通过改进型重复Wiener滤波结合PUM模型进行抗噪语音识别,较好地抑制了噪声干扰,提高了语音识别率. 相似文献

19.

藏语语音信号降噪算法研究 总被引：1，自引：0，他引：1

顿珠次仁《西藏大学学报》2010,(5):61-65

藏语语音在识别过程中会受到各种信号的干扰,从而影响语音识别的质量。在进行语音识别预处理过程中,语音信号的降噪技术是一个关键的环节。文章通过分析各种降噪手段,重点研究了藏语语音信号降噪方法,提出了符合藏语语音信号降噪的小波包降噪算法。其研究结果为进一步的藏语语音识别技术的研究提供了基础。相似文献

20.

基于CGRU多输入特征的地空通话自动切分

郭东岳林毅杨波《四川大学学报(自然科学版)》2020,57(5):887-893

自动语音切分是语音识别、声纹识别、语音降噪等语音应用中非常重要的预处理环节,切分算法的优劣直接影响了系统输出结果的精度.在空管地空通话中,传输信道噪声、天气因素以及说话人工作状态均会对语音信号产生影响,进而在一定程度上影响语音切分性能.在分析空管地空通话语音特性基础上,提出了一种基于CGRU网络多输入特征的自动语音切分方法.该方法结合地空通话的特点,采用深度学习的方法进一步提取语音信号的时域和频域非线性特征,将语音信号帧分类为语音帧、结束帧以及其他帧三类.实验对比了多种语音特征作为输入对切分效果的影响,同时验证了GMM、CNN、CLDNN、CGRU等切分算法在真实地空通话测试集上的表现,并提出了一种简单预测结果平滑算法.实验结果表明,文中提出的自动切分方法在地空通话中具有明显优势,分类模型的AUC值达到了0.98. 相似文献