首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于矢量量化的组合参数法说话人识别   总被引:5,自引:0,他引:5  
 说话人识别的方法很多,提出的基于矢量量化(VQ)的算法,在语音特征表征上利用几种特征参数的组合使用来提高识别率,在VQ过程中,经典的K均值算法收敛速度快,但极易收敛于局部最佳点,为了使聚类算法收敛于全局最优点,同时提高识别率,采用模拟退火算法来改善聚类码本质量.讨论了具体的算法实现,并给出了一些实验数据,实验结果表明该处理方法是有效的.  相似文献   

2.
基于VQ的说话人识别系统的实现   总被引:1,自引:0,他引:1  
王吉林 《高等职业教育》2004,13(6):39-42,48
系统以语音信号的LPC倒谱系数、差值倒谱系数、基音周期和差值基音周期的混合特征参数作为识别的特征矢量集,运用矢量量化(VQ)技术实现了与文本有关的说话人识别。在一个10人,1800个语音的语音库上进行了系统的识别实验,其中单音节语音的平均识别率达到了92%,双音节语音达到了96.67%,四音节语音达到了97.67%。系统用于实时识别也收到了较好的效果。  相似文献   

3.
提出了一种新的语音识别方法,该方法综合了VQ,HMM和无教师说话人自适应算法的优点。该方法首先在每个状态通过用矢量量化误差值取代传统HMM的输出概率值来建立VQ-HMM,同时采用无教师自适应矢量量化算法,来改变VQ-HMM的各状态的码字,从而实现对未知说话人的码本适应。本文通过非特定人汉语数码(孤立和连续数码)识别实验,把新的组合方法同基于CHMM的自适应和识别方法进行了比较,实验结果表明该方法鲁棒性好,所需计算量较少,自适应和识别效果远优于基于CHMM的方法。  相似文献   

4.
随着信息化时代的快速到来以及计算机技术的不断完善发展,语音识别在众多领域都得到了应用,同时语音识别有着广阔的发展前景。当下,在对语音识别的研究方面,研究人员大多以线性系统理论为基础,采用隐马尔可夫模型(HMM)、动态时间规整(DTW)、矢量量化(VQ)等技术。随着研究的深入,发现以线性系统理论为基础的方法和语音的非线性过程特性不能很好的融合,采用非线性理论研究成为了语音识别的重要突破口。人工神经网络(ANN)等非线性理论成为了研究语音识别的热点。采用Python语言进行深度学习与语音识别相结合的方法进行研究,希望能够使语音识别在速度、准确度等方面得到较好的效果。介绍了Python在深度学习语音识别中的使用。通过实验结果可以看出,DNN-HMM方法在准确率方面比GMM-HMM方法有所提高。  相似文献   

5.
文章研究了两种不同语音识别算法—动态时间伸缩算法(DTW)和隐马尔可夫模型(HMM),并在模式匹配原理的基础上,设计、实现了在Matlab环境中,应用DTW识别法及HMM识别法的孤立字语音识别实验平台。  相似文献   

6.
基于GA/VQ的说话人辨认的研究与实现   总被引:3,自引:0,他引:3  
为了改善在矢量量化说话人识别中,采用模板(码书)表征说话人,模板的质量对识别系统的性能。采用遗传算法改进模板的生成方式,构建了一种GA/VQ说话人辨认系统,给出了一种GA/VQ识别算法,通过遗传操作获得全局优化的说话人模板。实验证明,GA/VQ方法提高了码书的质量,比经典矢量量化识别系统识别率高。  相似文献   

7.
介绍了语音识别的一般概念,利用MFCC对语音信号的特征信息进行了提取,在分析VQ模型和人工神经元网络的基础上,提出了一种VQ模型与神经元网络相结合的方法,并且建立了相关的数学模型.通过MATLAB仿真证明该模型具有很好的稳定性.  相似文献   

8.
阐述了分析非线性、非平稳信号的Hilbert—Huang变换(HHT)算法。针对非平稳语音信号,提出了一种基于HHT的提取语音特征参数HHT—IF的新方法,设计了基于VQ的说话人辨认系统,分别采用HHT-IF和LPCC从不同角度进行说话人辨认实验。结果表明,特征参数HHT-IF用于说话人识别是可行的。  相似文献   

9.
针对LPC参数量化过程的多级VQ码书设计中顺序与迭代顺序设计算法收敛速度较慢这一缺点,提出了一种新的顽健多级VQ的联合码书设计方案。实验表明,该多级VQ的联合码书设计方案应用于线谱对参数的量化时,可提供透明质量的合成语音。相比顺序设计算法不仅加快了收敛速度,而且改善了VQ的性能测度。  相似文献   

10.
说话人识别技术是根据待识别人的语音与预先提取的说话人语音特征是否相匹配来鉴别说话人身份的一种生物认证技术,具有广泛的应用前景。采用矢量量化(VQ)方法,可以在信息量损失较小的情况下更好地压缩数据量,从而增高说话人识别系统的识别率。本文研究了说话人识别的相关技术,提出并设计了一个基于VQ的说话人识别系统,当用于训练的数据量较小时,可以得到比较稳定的识别性能。  相似文献   

11.
主要对文本无关的说话人识别技术进行一些探讨。与语音识别不同,说话人识别技术必须提取说话人依赖特点,而语音特征量的选取是利用说话人声音的频谱通过分离傅立叶变换(DCT)获得的。在训练阶段,每一个说话者通过矢量量化产生一个码书(语音数据库)。在认识阶段期间,通过对欧几里德距离代表VQ的计算来减少失真。在一定范围的说话人的语音库中,测试结果表明有很高的识别率,可以达到96%。  相似文献   

12.
介绍了用有限态文法引导的基于连续密度隐马尔可夫模型(HMM)的连续汉语语音识别系统.分析了系统的组成,词语的HMM的训练方法和对识别系统的测试结果。实验表明,用有限态文法辅助进行连续语音识别是一种有效的策略;连续密度HMM与基于矢量量化的HMM/VQ相比需要较大的计算量,但可明显提高识别准确率。  相似文献   

13.
语音控制作为一种新型的人机交互手段,给用户带来更多的操作体验,在很多特定场景中具有必要性。本文将梅尔倒谱系数(MFCC)作为语音特征参数,采用动态时间规整算法(DTW)进行模式识别和分类,实现了小样本孤立词汇的实时识别,具有高识别率。在基本算法的基础上进行了边界条件改进,克服了端点检测缺陷。在语音特征提取上,分析比较了线性预测系数(LPC)和梅尔倒谱系数(MFCC)作为特征参数的优缺点,最后选定基于人耳听觉特性的MFCC作为语音特征参数。语音信号采用NI公司USB-6218采集卡将数据直接传输至MATLAB开发平台,在MATLAB集成环境下实现了语音识别程序。实验结果表明,系统可以实现6个特定的孤立词识别,满足实时性和准确性要求。  相似文献   

14.
本文用多码本结构的HMM进行汉语语音识别。语音特征有Cep(倒频谱)系数及其一阶差分ΔCep。建立特征矢量Cep1、Cep2和ΔCep1的三个VQ码本,分别训练出三个HMM模型。实验结果表明此方法优于以LPC为特征参数的单码本HMM方法。由于增强了辅音的特征,对易于混淆的孤立字语音取得90%的识别率。对二字词组语音的识别率为98%。  相似文献   

15.
LM算法在神经网络语音识别中的应用   总被引:1,自引:1,他引:0  
孙峰 《科学技术与工程》2011,11(9):2021-2024,2033
输入语音信号中声音的特征提取和分类识别可以通过多层前馈神经网络大量学习实现,但基于误差反向传播的前馈神经网络(BP神经网络)标准算法收敛速度慢,在训练中效率不高。采用一种快速稳定的Levenberg-Marquardt算法进行语音识别,通过对语音信号的预处理、特征提取和网络结果优化,建立了网络训练样本集,用MATLAB进行了仿真,仿真结果表明,该算法优于传统的BP算法,具有更好的收敛性。  相似文献   

16.
混合蛙跳算法神经网络及其在语音情感识别中的应用   总被引:3,自引:1,他引:2  
该文将混合蛙跳算法(SELA)优化方法应用于人工神经网络训练中,对6种语音情感进行了语音情感特征的分析与识别。研究了谐波噪声比特征随情感类别的变化特性。利用混合蛙跳算法训练随机产生的初始数据优化神经网络的连接权值,快速实现了网络收敛。实验比较了BP神经网络、RBF神经网络和SFLA神经网络的语音情感识别性能。结果表明,SFLA神经网络的平均识别率分别高于BP神经网络和RBF神经网络4.7%和4.3%。  相似文献   

17.
为了有效提取语音特征,提高说话人识别的准确率,系统采用基于有限状态机的端点检测算法对原始语音做VAD处理,提出了新的特征组合参数:基于人的听觉特性的MFCC参数、基于发音生理特征的基音轮廓特征以及衍生的基音周期一阶差分、基音周期变化率,并将它们作为说话人识别系统的特征参数,建立了基于VQ的识别模型.实验表明:本文系统使用VAD,使系统的识别率提高了5%8%,较单独使用MFCC参数的说话人识别系统的识别率提高了2%3%.  相似文献   

18.
一种改进的DTW语音识别系统   总被引:1,自引:0,他引:1  
苏昊  王民  李宝 《中国西部科技》2011,10(1):38-39,94
动态时间规整(Dynamic Time Warping,DTW)是语音识别的一种简单有效的方法,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。这里改进了传统的DTW算法,将其应用到实时语音识别系统中,并在计算机上进行了仿真。实验结果表明,改进后的算法,能有效提高孤立词的识别性能。  相似文献   

19.
面向训练语料有限的语音识别任务,基于动态时间规整(dynamic time warping, DTW)算法对俄语语音进行识别。首先,以跨语言标注的语音语料为资源基础,研究融合音字转换和机器翻译的语音识别方法。其次,结合俄语语音特点,以元音为中心设置动态门限阈值,实现精确至音节的端点检测,识别速度提高了34.4%,准确率提高了14%。然后,综合时域、频域分析,提取反映语音静态特征和动态变化的参数模板。另外,引入全局限制和早弃策略改进DTW算法,避免病态匹配,缩小计算规模,使速度提高了19.7%,准确率提高了4.8%。在俄语短指令语音集上做五折交叉验证,识别准确率达到74.9%。  相似文献   

20.
为了提高左图像的编码效率,提出了一种新的基于自组织神经网络的立体图像编码算法(SOM VQ DE),SOM-VQ DE算法对右图像采用视差估计补偿技术(DE)编码,对左图像则使用基于自组织特征映射算(SOM)的矢量量化编码来取代传统的JPEG方法,矢量量化与视差估计的残差均使用DCT 霍夫曼进行编码.对立体测试图像Pentagon的实验表明,SOM VQ DE算法能够有效地提高左图像的压缩效率:1)在压缩比均为6.5.1时,SOM VQ DE算法的PsNR较JEPGqG DE算法提高了2.42 dB;2)在PsNR均为30 dB时,SOM VQ DE算法的压缩比改善是JPEG DE算法的1.8倍.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号