首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
提出用码激励线性预测(CELP)实现GSM半速率编码器的一种方案。该方案把中心削波和结构化码本相结合,并推导了加权滤波器响应的公式,使码本搜索的计算量大大降低,存储量显著减少,并获得高质量语音。计算机模拟结果表明,本方案编码速率为675kbit/s,合成语音MOS得分为35dB~40dB。该方案可以在一块TMS320C30上实时实现。  相似文献   

2.
分析了宽带语音编解码过程中遇到的特殊问题和解决办法,并通过改进窄带语音TCX算法(主要包括系统合成滤波器的移位和将频域矢量分成高低两个矢量)实现了宽带语音压缩编码.该算法的运算量仅相当于一般CELP运算量的1/2,降低了对所用DSP的速度要求.实验证明重建语音质量有了明显改善,信噪比提高近3dB,主观听觉质量也有明显改善.同时还分析了频域量化对该系统的编码噪声的影响,认为2bit/sample来量化相位是比较恰当的,这样能充分发挥TCX算法优越性,获得较理想的编码效果.  相似文献   

3.
音频信号的感知编码技术研究   总被引:2,自引:0,他引:2  
感知编码是利用人耳听觉的心理声学特性,将凡是人耳感觉不到的成分不编码不传送的一种编码技术.本文主要介绍了音频感知编码的相关知识,绝对听觉门限和听觉掩蔽效应,以及感知编码器的基本原理.最后,本文着重描述了感知编码技术的发展和一些利用感知编码的音频编码标准,主要MPEG-1、MPEG-2、杜比AC-3、AAC、DTS和AVS音频编码技术.  相似文献   

4.
一种基于G.729语音编码的改进算法   总被引:1,自引:0,他引:1  
共轭代数码本激励线性预测(CS,ACELP)语音编码算法在8kb/s速率上获得了比较理想的质量,是以10ms为一短时语音帧作为处理对象.基于CS.ACELP语音编码算法,以20ms为一语音帧,在编码器中引入脉冲散布技术,提出了一种使码速降低至4kb/s的散布脉冲代数码本激励线性预测(PD—ACELP)编码算法.经仿真实验及主观听觉测试表明,这种算法的合成语音质量还是比较令人满意的.  相似文献   

5.
基于人耳听觉模型的语音质量客观评价方法   总被引:11,自引:0,他引:11  
将人耳听觉模型应用于语音质量客观评价,用听觉模型对语音作处理得到挖的短时语音频谱,在此基础上得到谱距离作为语音质量的评判标准,实验结果表明这咱方法与主观评价结果的相关度达到0.83。  相似文献   

6.
提出了一种对Itakura 语音失真测度的改进方法——感知谱失真(PSD) 测度方法,该方法通过模拟人的听觉特性把语音短时谱转变为符合听觉特性的感知谱,再以感知谱为基础,结合Itakura 测度的优点来度量语音失真程度.通过对不同质量的语音信号进行仿真实验以及与Itakura 测度方法作对比实验,结果表明PSD测度克服了Itakura 测度的不足,与语音质量的主观评价一致性较好,特别是在语音失真程度较大时PSD测度明显优于Itakura 测度.  相似文献   

7.
自适应技术在语音编码中的应用   总被引:4,自引:0,他引:4  
为了解决单一语音编码方法所带来的系统容量和频带利用率的浪费,以欧洲电信标准委员会(ETSI)的自适应多速率(AMR)语音编码标准为基础,介绍AMR编码技术的基本思想,分析AMR语音编码整体系统实现,并在全球移动通信系统(GSM)的3种典型噪声环境下模拟测试了AMR的中文语音性能,并将合成波形与其它编码器的结果进行了比较,模拟结果表明,AMR合成语音质量要比其它编码模式高0.5 ̄1.2个MOS分。  相似文献   

8.
对Itakura语音失真测度的改进   总被引:1,自引:0,他引:1  
提出了一种对Itakura语音失真测度的改进方法-感知谱失真(PSD)测度方法,该方法通过模拟人的听觉特性把语音短时谱转变为符合听觉特性的感知谱,再以感知谱为基础,结合Itakura测度的优点来度量语音失真程度。通过对不同质量的语音信号进行仿真实验以及与Itakura测度方法作对比实验,结果表明PSD测度克服了Itakura测度的不足,与语音质量的主观评价一致性较好,特别是在语音失真程度较大时PS  相似文献   

9.
8kbit/s短延时语音编码算法LD-ACELP,采用了代数码本激励线性预测(ACELP)的编码方法,利用语音的帧间相关性对线谱对参数采用了分裂式矢量量化技术,并采用高效的码本结构、码本搜索技术和增益矢量量化技术来获得较高的语音合成质量和较短的算法延时。LD-ACELP的帧长为10ms,算法延时为15ms。通过信噪比及人耳主观听觉实验等性能测试表明,该算法具有与国际电联16kb/s短延时语音编码算法LD-CELP(G.728)相当的语音合成质量。  相似文献   

10.
基于人耳听觉特性提出一种新的抗噪音识别特征:加权组合过零峰值幅度特征,是对过零峰值幅度特征的一种改进。加权组合过零峰值幅度特征以语音数据和差分语音数据作为处理对象,通过计算它们的上升过零率获得频率信息,经幅度非线性压缩获得密度信息,并根据人耳对声音的感知特点对其进行加权,形成最终的输出特征,识别网络使用HMM。仿真实现了使用新特征与原特征的算法识别结果,证明了新特征具有较高的识别率和优良的抗噪性能。  相似文献   

11.
S Nowicki 《Nature》1987,325(6099):53-55
The complexity and dependence on learning of many bird sounds have suggested parallels between birdsong and human speech, but the mechanisms by which each is produced have been supposed to differ markedly. In human speech, resonances of the vocal tract are thought to modulate in complex ways the sound produced by vibration of the vocal folds. The current theory of birdsong production holds that all variation in sound quality arises from the primary sound-producing organ, the syrinx, and that resonances of the vocal tract play no part. Here I present evidence, obtained from acoustic analyses of birdsongs recorded in a helium atmosphere, which contradicts this hypothesis. Not only does the songbird's vocal tract act as an acoustic filter, but its filter characteristics are actively coordinated with the output of the syrinx. Songbird and human phonation are thus more analogous than previously thought, in that both require coordination of an array of diverse motor systems.  相似文献   

12.
基于浊音语音谐波谱子带加权重建的抗噪声说话人识别   总被引:1,自引:0,他引:1  
提出了一个基于浊音语音谐波谱重建的说话人识别算法.该算法根据浊音语音短时频谱的结构特征和基音信息,对浊音语音谐波结构频谱进行子带加权重建,以补偿由噪声引起的训练与测试条件的失配.算法基于重建浊音频谱提取感知线性预测倒谱系数,与基音相组合作为说话人的语音特征参数矢量,采用高斯混合模型对说话人进行建模.仿真实验的结果表明:所提出的浊音谱重建方法对多种类型含噪语音的噪声补偿均具良好效果,可以明显提高在噪声环境下的与文本无关的说话人识别的识别率,特别是显著提高低信噪比环境下的识别率,而不会明显降低纯净语音和高信噪比环境下的识别率.  相似文献   

13.
基于韵律语段的语音情感识别方法研究   总被引:2,自引:0,他引:2  
语音情感识别领域提取情感特征时,普遍采用"不同情感类别,相同时长基准"的做法,忽略了人耳敏感的韵律段长会依情感不同而有所差异的现象。本文首先通过情感识别实验确定各类情感的最佳识别段长,作为人耳敏感韵律段长。并构造了基于韵律段特征的多重Elman网络模型,以期对不同情感基于特定敏感韵律段长进行识别和对多分类器识别结果进行有效融合,实现了对人耳情感辨识规律的模拟。结果表明,使用敏感韵律段特征的系统识别率达到67.9%,与使用定长语段特征相比有了很大的提高。  相似文献   

14.
IntroductionA speech signal is normally mixed with many kindsof noises,which can significantly decrease theperformance of a speech recognizer.The highconcentration of energy in the low frequency rangeobserved for most speech spectra is considered anuisance because it makes less relevant the energyof the signal at middle and high frequencies[1] . The performance of automatic continuous speechrecognition (ACSR ) systems dramaticallydecreases when they are trained and used indifferent environm…  相似文献   

15.
变异特征加权的异常语音说话人识别算法   总被引:1,自引:1,他引:0  
常用的加权算法难以跟踪非常态语音特征的变异,为此,文中提出了一种变异特征加权的异常语音说话人识别算法.首先统计大量正常语音各阶MFCC特征的概率分布,建立正常语音特征模板;然后用测试语音特征与正常语音特征模板之间的K-L距离和欧氏距离来度量语音的变异程度,确定K-L加权因子和欧氏加权因子;最后利用加权因子对测试语音的MFCC特征进行加权,并将加权后的特征输入高斯混合模型进行异常语音说话人识别.实验结果表明,文中提出的K-L加权和欧氏加权的异常语音说话人识别算法的整体识别率分别为46.61%和42.25%,而基于各阶特征对说话人识别贡献的加权算法和不加权算法的整体识别率分别为39.68%和36.36%.  相似文献   

16.
Efficient auditory coding   总被引:2,自引:0,他引:2  
Smith EC  Lewicki MS 《Nature》2006,439(7079):978-982
The auditory neural code must serve a wide range of auditory tasks that require great sensitivity in time and frequency and be effective over the diverse array of sounds present in natural acoustic environments. It has been suggested that sensory systems might have evolved highly efficient coding strategies to maximize the information conveyed to the brain while minimizing the required energy and neural resources. Here we show that, for natural sounds, the complete acoustic waveform can be represented efficiently with a nonlinear model based on a population spike code. In this model, idealized spikes encode the precise temporal positions and magnitudes of underlying acoustic features. We find that when the features are optimized for coding either natural sounds or speech, they show striking similarities to time-domain cochlear filter estimates, have a frequency-bandwidth dependence similar to that of auditory nerve fibres, and yield significantly greater coding efficiency than conventional signal representations. These results indicate that the auditory code might approach an information theoretic optimum and that the acoustic structure of speech might be adapted to the coding capacity of the mammalian auditory system.  相似文献   

17.
将卷积神经网络(convolutional neural networks,CNN)声学模型应用于中文大词表连续电话语音识别任务中,分析了卷积层数、滤波器参数等变量对CNN模型性能的影响,最终在中文电话语音识别测试中,CNN模型相比传统的全连接神经网络模型取得了识别字错误率1.2%的下降.由于卷积结构的复杂性,常规的神经网络加速方法如定点量化和SSE指令加速等方法对卷积运算的加速效率较低.针对这种情况,对卷积结构进行了优化,提出了2种卷积矢量化方法:权值矩阵矢量化和输入矩阵矢量化对卷积运算进行改善.结果表明,输入矩阵矢量化方法的加速效率更高,结合激活函数后移的策略,使得卷积运算速度提升了8.9倍.  相似文献   

18.
一种基于听觉掩蔽效应的语音增强方法   总被引:5,自引:1,他引:5  
为提高增强语音的听觉效果 ,研究了一种基于听觉掩蔽效应的语音增强方法。推出了一个功率谱域的基于听觉掩蔽效应的不等式准则 ,并用这个准则动态地选择一个作为语音短时谱幅度估计器的非线性函数的参数值 ,通过这个参数自适应变化的非线性函数对语音谱幅度进行估计实现语音增强。在此基础上 ,设计实现了一个单声道语音增强算法。对增强语音的客观测试和非正式听音测试表明 :相对于传统的减谱法和对数短时谱幅度最小均方误差估计增强法 ,基于听觉掩蔽效应的语音增强方法能更好地抑制背景噪声  相似文献   

19.
对声波测井相控线阵声波辐射器进行了幅度加权的优化设计。分别针对辐射声束主瓣和旁瓣的最小化条件建立了相控线阵幅度加权的优化目标函数,采用拉格朗日乘子算法对目标函数进行非线性规划,并确定了最优幅度加权因子。通过数值计算对比分析了均匀幅度加权和不同幅加权条件下相控线阵声波辐射器的指向性以及辐射声束角宽的差异。结果表明,优化设计可以很好地实现相控线阵辐射旁瓣的最小化和给定旁瓣级条件下声束主瓣角宽的最窄控制,并且可以根据声波测井的不同要求提供相控线阵辐射器幅度加权的优化参数。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号