首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
提出了一种基于双权值神经网络的非特定人连续语音识别的新算法.这种算法可以不经过端点检测和分割,构建连续语音中各不同音节的特征空间覆盖区,可以避免因分割错误而带来的错误识别.通过实验得到了较为满意的识别结果.  相似文献   

2.
汉语语音识别中对孤立词、小词汇特定人的语音识别率较高,但对于连续的大词汇量语音识别率较差。把连续的大词汇语音实时自动地切分为单个音节,可以提高其系统的识别率。本文根据汉语语音在能量和频率等方面的特征,找到了短时平均幅度和短时平均过零率的方法来检测音节的端点,从而得到对文本文件中汉语语音的音节自动切分算法。  相似文献   

3.
本文在统一的框架下描述了隐马尔柯夫模型(HMM)用于语音识别时的各种形式,包括离散HMM、连续混合密度HMM、半连续HMM和最大分量连续HMM等,指出各种模型均是统一形式下的导出形式。文中就离散HMM、连续混合密度HMM和最大分量连续HMM在非特定人全音节汉语语音识别中的应用,从识别率和复杂度两方面进行了性能比较。为提高最大分量连续HMM的识别性能;提出了一种修正的训练算法。  相似文献   

4.
提出针对汉语连续语音识别中的大型HMM进行修正。在模型中加入双词法约束,然后给出洁约束下的新的识别算法,新识别算法基于Viterbi算法和分层构筑思想之上。经实验测试,识别率有较大提高。  相似文献   

5.
在比较各种汉语语音识别基元的基础上,结合汉语语音和随机轨迹模型的特色,提出了以音素类单元作为汉语连续语音识别系统的识别基元,基于音素基随机轨迹模型的汉语连续语音识别系统的实验结果表明,该方案可行。  相似文献   

6.
维吾尔语是一种黏着语,基于单词的语言模型不太适合于维吾尔语大词汇连续语音识别任务。该文提出了适合维吾尔语的基于音节的语言模型,引入最大匹配分词算法评价音节语言模型在大词汇连续语音识别任务中的单词识别性能。实验结果表明:基于音节的语言模型在未登录词和模型复杂度等方面表现出比基于单词的语言模型更加优越的性能,并且使识别系统的单元错误率比基于单词的系统减少了50%。因此,在维吾尔语语音识别任务上可以将音节作为识别单元。  相似文献   

7.
利用声调判别提高汉语数码语音识别性能   总被引:7,自引:0,他引:7  
数码语音“2”与“8”等的混淆是汉语数码语音识别错误的主要来源。为此,提出了在汉语数码语音识别中引入声调判别的方法。首先设计了变长度短时平均幅度差函数(LVAMDF)、元音中心定位、基音谐波单周期校正以及基音邻近搜索等一系列高性能基音周期估计算法,在此基础上设计了一个针对汉语数码语音声调识别的MDTD算法。实验表明,新的基音周期估计方法和MDTD算法使汉语数码语音识别率由95.2%上升到98.5%,更使“2”与“8”的分辨率由90.5%上升到了98.8%,从而较好地解决了这个难题。  相似文献   

8.
在比较各种汉语语音识别基元的基础上,结合汉语语音和随机轨迹模型的特色,提出了以音素类单元作为汉语连续语音识别系统的识别基元.基于音素基随机轨迹模型的汉语连续语音识别系统的实验结果表明,该方案可行.  相似文献   

9.
汉语连续语音识别中上下文相关的声韵母建模   总被引:8,自引:1,他引:8  
声学建模是汉语连续语音识别中的关键步骤之一。根据汉语语音的特点,采用扩展声韵母(XIF)作为识别基元,并针对XIF基元设计了相应的问题集,利用基于决策树的状态共享策略建立上下文相关声韵模型(Tri-XIF)。将Tri-XIF模型与上下文相关音素模型(Tri-phone)、上下文无关音节模型进行了对比。提出了几种方法用于改善标注、改进问题集和降低模型规模。实验结果表明,Tri-XIF模型与Tri-phone模型、音节模型相比,识别性能有了很大提高,其音节误识率分别降低了24.53%和41.65%。采用了所提出的优化策略后,模型规模降低20%以上,而性能下降很少。  相似文献   

10.
用共振峰轨迹提高汉语数码语音识别性能   总被引:2,自引:0,他引:2  
在汉语数码语音识别( M D S R)中,“2”和“8”是最易混淆的一对语音。文章分析了“2”和“8”混淆的原因,发现可用于分辨“2”和“8”的区别特征在于其共振峰轨迹的差异。因此文章提出了基于共振峰轨迹的判决算法( F T B D)来分辨“2”和“8”。实验表明,使用 F T B D 算法,使 M D S R识别率从960% 提高到 977% ,“2”和“8”的识别率从 91% 提高到99% ,消除了这对语音的混淆,提高了 M D S R 的整体性能  相似文献   

11.
采用模式匹配的识别技术,建立孤立词语音识别系统,基于MATLAB环境对O~9这10个数字语音进行仿真实验.在提取MFCC的基础上,整合差分倒谱参数作为语音的特征参数,并对现有的DTW算法加以改进,节省了系统匹配的计算时间,使其具有一定的鲁棒性.分别采集普通话语音和湖北、闽南、安徽3地方言的语音数据,体现了数据的完备性和系统的适用性.实验结果表明,基于改进型DTW算法和MFCC的语音识别系统具有较高识别率,取得了良好效果.  相似文献   

12.
嵌入式中等词汇量英语语音识别片上系统   总被引:1,自引:0,他引:1  
针对目前嵌入式英语语音识别系统中识别性能较差或硬件资源占用较大的问题,提出了一个在16 b定点数据信号处理语音芯片上实现的非特定人、中等词汇量英语命令字识别系统。该系统采用基于连续隐含M arkov模型(con tinuous dens ity h idden M arkov m ode l,CDHMM)的两级识别网络,通过应用改进的音素体系、B ayes ian信息准则模型参数选择算法、决策树和数据驱动相结合的状态聚类方法、最小互信息改变准则特征选择算法,在保证识别率的前提下,大大降低了模型的存贮空间和计算复杂度。实验表明,对1 235词的英语短句的识别率为96.41%,识别时间为0.46倍实时。  相似文献   

13.
高性能汉语数码语音识别算法   总被引:13,自引:0,他引:13  
提出了一个高性能的汉语数码语音识别 (MDSR)系统。 MDSR系统使用 Mel频标倒谱系数 (MFCC)作为主要的语音特征参数 ,同时提取共振峰轨迹和鼻音特征以区分一些易混语音对 ,并提出一个基于语音特征的实时端点检测算法 ,以减少系统资源需求 ,提高抗干扰能力。采用了两级识别框架来提高语音的区分能力 ,其中第一级识别用于确定识别候选结果 ,第二级识别用于区分易混语音对。由于采用了以上改进 ,MDSR系统识别率达到了 98.8% .  相似文献   

14.
利用改进的有序聚类算法得到解决时间规整问题的新算法,在此基础上建立了基于人工神经网络的普通话数字语音识别系统。对基于人工神经网络的算法和基于动态时间伸缩的算法作比较识别实验,结果表明,基于人工神经网络的语音识别算法的识别性能优于传统的动态时间伸缩算法。  相似文献   

15.
在语音识别系统中,易混淆语音是导致系统识别率下降的重要原因。汉语音节是由声母和韵母组成的,在易混淆语音中,其韵母部分的混淆度很大。针对易混淆语音的韵母部分,通过改进特征提取的方法来提高易混韵母之间的区分度,提出了一种基于小波分解和线性预测(WLPC)的特征提取方法,并用局部保持映射(Locality Preserving Projections)算法对提取的特征进行了特征变换。实验结果显示,与传统的MFCC特征相比,该特征能更好的区分不同的韵母。  相似文献   

16.
当前非定特人语音识别算法大多只适于连续语音,且识别精度和速度均较低。为此,提出一种新的基于BP神经网络的非特定人语音识别算法,介绍了标准BP神经网络,针对其收敛速度慢的弊端,通过变化的自适应学习速率,令网络训练针对各种阶段自行设置学习速率值,利用变学习速率构建对应的改进BP神经网络模型,将改进的BP神经网络模型看作识别非特定语音的识别器,输入待识别语音,令累计预测残差达到最小,实现非特定人语音识别。将改进模型应用于非特定人语音识别中进行验证,结果表明所提算法识别率更高、识别速度更快,不仅适于连续语音的识别,也适于不连续语音的识别。  相似文献   

17.
矢量量化技术和隐马尔柯夫模型方法在韵母识别中的应用   总被引:2,自引:0,他引:2  
本文应用矢量量化技术(Vector Quantization)和隐马尔柯夫模型方法(Hidden Markov Model)为一个全字汇量的孤立字普通话语音识别系统设计了韵母识别子系统.该系统由韵母信号析取器、滤波器阵列特征分析器、矢量量化器、预识别器、隐马尔柯夫模型匹配器和决策器组成.根据对汉语中1172个不同音节的语音信号测试结果,决策器输出的准确率(即系统的最后识别准确率)为89.5%,而前两个估计的识别准确率则达到97.2%.系统的训练包括生成矢量量化器的码字和为每一个韵母建立隐马尔柯夫模型,改进了Linde 等人提出的码字生成算法,提出了一个得到隐马尔柯夫模型参数的系统化方法.  相似文献   

18.
随着普通话水平考试的普及,普通话水平测试系统的自动化变得日益迫切。为了建立自动的普通话水平测试系统,如何快速准确的对普通话测试命题说话内容进行缺时检测是一个关键问题。将语音信号分成若干窗口,采用EMD分解算法将窗口信号分解为若干IMF。在每一窗口上利用Hilbert-Huang变换获取每个IMF分量的瞬时幅值和频率。利用瞬时幅值和频率构造每个IMF分量的能频值。将所有IMF分量的能频值组成该段的能频值特征向量,利用该能频值特征向量来区分信号中的静音段和语音段。最后通过计算相邻静音段的最大时长判断是否缺时,并采用一种规则消除因强噪声信号而引起的某一段能频值过大的影响。实验表明,笔者所设计的算法对普通话水平考试中的缺时检测有良好的效果。  相似文献   

19.
An English speech recognition system was implemented on a chip,called speech system-on-chip (SoC).The SoC included an application specific integrated circuit with a vector accelerator to improve performance.The sub-word model based on a continuous density hidden Markov model recognition algorithm ran on a very cheap speech chip.The algorithm was a two-stage fixed-width beam-search baseline system with a variable beam-width pruning strategy and a frame-synchronous word-level pruning strategy to significantly reduce the recognition time.Tests show that this method reduces the recognition time nearly 6 fold and the memory size nearly 2 fold compared to the original system,with less than 1% accuracy degradation for a 600 word recognition task and recognition accuracy rate of about 98%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号