首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
在比较各种汉语语音识别基元的基础上,结合汉语语音和随机轨迹模型的特色,提出了以音素类单元作为汉语连续语音识别系统的识别基元,基于音素基随机轨迹模型的汉语连续语音识别系统的实验结果表明,该方案可行。  相似文献   

2.
汉语连续语音识别中上下文相关的声韵母建模   总被引:8,自引:1,他引:8  
声学建模是汉语连续语音识别中的关键步骤之一。根据汉语语音的特点,采用扩展声韵母(XIF)作为识别基元,并针对XIF基元设计了相应的问题集,利用基于决策树的状态共享策略建立上下文相关声韵模型(Tri-XIF)。将Tri-XIF模型与上下文相关音素模型(Tri-phone)、上下文无关音节模型进行了对比。提出了几种方法用于改善标注、改进问题集和降低模型规模。实验结果表明,Tri-XIF模型与Tri-phone模型、音节模型相比,识别性能有了很大提高,其音节误识率分别降低了24.53%和41.65%。采用了所提出的优化策略后,模型规模降低20%以上,而性能下降很少。  相似文献   

3.
研究了汉语大词汇词组语音识别算法的实现问题,提出了适用于大词汇汉语语音识别的有效而可行的训练和识别策略,对其中一些关键问题做了比较性实验,得出了一些有益的结论.针对汉语语音学特点提出了一种新的识别基元依赖韵头的声韵母模型(FHIF),实验证明FHIF的确优于普通的声韵母模型(IF).随后介绍了一个特定人汉语大词汇词组语音的模拟识别系统,该系统原则上可以识别无限的汉语词组,通过对汉语中最常用的5000词的测试结果表明,该模拟系统首选词条在特定人下已达到了约87%的识别率  相似文献   

4.
汉语语音音素分割的一种新方法   总被引:3,自引:0,他引:3  
音素分割在大词汇量连续语音识别的过程中起着重要的作用 .该文提出了一种简单实用的音素分割方法 ,比较好地解决了这个问题 ,并在大词汇量汉语语音识别中得到了应用 ,取得了较好的结果  相似文献   

5.
语音是由混沌的自然音素组成的,而分形可以很好地为成混沌状态的自然音素建模.语音波形具有分形特征,将分形用于改善语音识别技术越来越受到重视.语音的特性决定了每一个音素展现其固有模式,因此相邻音素之间的分维值不同.通常求取语音波形的分维值轨迹可把人的发音分割成句子、词、甚至音素.实验证明,该方法在语音分割中取得了很好的效果.  相似文献   

6.
介绍了用有限态文法引导的基于连续密度隐马尔可夫模型(HMM)的连续汉语语音识别系统.分析了系统的组成,词语的HMM的训练方法和对识别系统的测试结果。实验表明,用有限态文法辅助进行连续语音识别是一种有效的策略;连续密度HMM与基于矢量量化的HMM/VQ相比需要较大的计算量,但可明显提高识别准确率。  相似文献   

7.
为提高汉语连续语音识别系统的性能,建立了音节间相关的半音节识别单元,并研究了基于这种单元的连续语音识别算法。讨论了基于 D D B H M M 模型和最大后验概率估计准则的连续语音识别的理论基础,依据动态规划的基本原理,提出了一种基于音节间相关的识别单元的汉语连续语音识别算法。依照这种算法,不但能得到最优句子侯选,而且能够在识别过程中得到音节格(即 Nbest句子侯选)的数据结构。最后通过大词汇量非特定人连续语音识别的实验,表明了采用音节间相关的识别单元比基本的识别单元误识率有明显的降低  相似文献   

8.
关键词检测是语音识别中一个重要的研究方向.关键词检测技术的重点之一就是代表非关键词语音的模型,不论识别系统的方法怎样,大部分是采用废料模型的,而废料模型的结构和类型对整个系统的性能有很大的影响.提出了一种基于音节格的废料模型.实验表明,与传统的基于音素类的废料模型相比,关键词的检测率有了很大的提高.  相似文献   

9.
论述了基于神经网络模型的特定人汉语语音识别,并建立了一基于3层BP神经网络的汉语语音识别系统,对汉语10个数字(1 ̄10)进行识别实验,获得了较满意的识别结果。  相似文献   

10.
提出了一种利用动态数量高斯分量拟合不同音素,利用拟合的音素组合作为补白参与语音关键词识别系统二次判决的方法.首先分析了为音素分配动态的高斯分量数量来训练音素模型的可行性;进而寻找能够准确描述音素且保证描述在不同音素之间有足够区分度的高斯分量个数;利用得到的音素与高斯分量数量的关系训练动态高斯添加的音素隐马尔科夫模型,利用模型的排列组合作为补白为语音关键词识别系统添加第二次判决来减小系统错误识别率.实验表明,利用这种方法进行语音关键词系统二次判断,能将原系统错误率降低至14.79%.  相似文献   

11.
嵌入式中等词汇量英语语音识别片上系统   总被引:1,自引:0,他引:1  
针对目前嵌入式英语语音识别系统中识别性能较差或硬件资源占用较大的问题,提出了一个在16 b定点数据信号处理语音芯片上实现的非特定人、中等词汇量英语命令字识别系统。该系统采用基于连续隐含M arkov模型(con tinuous dens ity h idden M arkov m ode l,CDHMM)的两级识别网络,通过应用改进的音素体系、B ayes ian信息准则模型参数选择算法、决策树和数据驱动相结合的状态聚类方法、最小互信息改变准则特征选择算法,在保证识别率的前提下,大大降低了模型的存贮空间和计算复杂度。实验表明,对1 235词的英语短句的识别率为96.41%,识别时间为0.46倍实时。  相似文献   

12.
通过分析汉语语音及非特定人语音特点,选择过零率、能量、基音周期和前两个共振峰作为语音特征,用音素分类的方法构造判决树,在此基础上,给出了一个非特定人普通话孤立数字音(0~9)识别系统,识别率大约为96.6%。  相似文献   

13.
一种新型汉语单音节识别方法   总被引:1,自引:0,他引:1  
介绍了一种新型字基 VQ/HMM语音识别方法: VQ与 HMM分级识别算法。 使得 VQ部分可用作语音识别的第一级处理, HMM部分作第二级识别。在第一级识别中 可引进汉语的音素知识,使 VQ/HMM性能进一步提高,并可用于大字汇表的实时语音识 别,存贮量、计算量均大大减少。用此方法把汉语四声作一个 HMM模型,使汉语 400 个基本音节的识别率达 96%以上.若加上精确四声识别则可识别汉语的 1200种声音。  相似文献   

14.
非特定人普通话孤立数字音识别系统   总被引:2,自引:0,他引:2  
通过分析汉语语音及非特定人语音特点,选择过零率、能量、基音周期和前两个共振峰作为语音特征,用音素分类的方法构造判决树。在此基础上,给出了一个非特定人普通话孤立数字音(0 ̄9)识别系统,识别率大约为96.6%。  相似文献   

15.
维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明,所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能,并且使识别系统的单词错误率比基于单词的系统相对减少22%。  相似文献   

16.
基于SQLite技术的汉语语音识别数据库的建立   总被引:1,自引:1,他引:0  
建立一个适合于特定说话人识别系统的汉语语音识别数据库,对推动说话人识别技术的研究和应用具有重要意义。本文基于支持向量机的说话人识别系统研究和开发过程中,构建了一个基于SQLite技术的汉语语音识别数据库,通过LabVIEW平台来实现对数据库控制操作。采用无序列样本和语音数据库样本分别进行比对实验。测试结果表明:一方面,无论是采用该语音识别数据库样本还是无序样本对说话人识别系统的识别率没有改变,这充分说明本系统建立的汉语语音识别数据库具有高稳定性和可靠性;另一方面,采用语音识别数据库样本其系统识别时间却明显缩短,这是改善基于支持向量机的说话人识别系统性能的有效途径。  相似文献   

17.
分析了潜语义分析语言模型在建模和解码过程中的主要问题, 实现了潜语义分析语言模型的建模, 并提出一种在连续语音识别系统一遍解码框架中融合的方法. 实验结果表明, 该方法可有效地提高大词汇汉语连续语音识别系统的性能.   相似文献   

18.
语音听写机中语音、语言模型是两个非常重要的部分,而语音模型的好坏直接影响语言模型和听写机的性能。文中在一个大型数据库上对语音识别基元、语音模型、模型的输出观察向量的计分方法进行了大量的比较实验。实验表明,采取以音节为识别基元、基于中心距离正态分布的中心距离连续概率模型,和基于最近邻原则的输出观察向量计分方法即嵌入式多模板方案,可以取得很好的识别效果。  相似文献   

19.
汽车噪声中自动语音的识别技术   总被引:5,自引:0,他引:5  
汽车中的话音拨号系统是自动语音识别技术的应用热点.自动语音识别系统是一个基于训练的系统.在汽车噪声中,由于实际应用环境与形成系统参数的训练环境的失配,传统语音识别系统的性能会大幅度地下降,从而无法实用.为了提高语音识别系统在特定环境下的识别率及实用性,首先根据汽车环境中语音的失真模型分析了系统性能下降的原因,然后针对加性汽车噪声与信道失真对系统的影响,讨论了在汽车噪声中改善语音识别系统性能的方法.提出了在识别系统中用基于子带的语音增强算法和倒谱均值相减算法相结合的方法.对大量的多人连续数字串语音的识别实验表明,这一方法大大提高了系统在汽车噪声环境中的识别率,它还可以简便、实时的实现,具有一定的实用性.  相似文献   

20.
对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号