首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 359 毫秒
1.
本文提出一种汉语语音连接词音节分割方法。根据汉语语音学知识分析了语音分段中的四种音节连接方式,除了短时能量和过零率外在处理鼻辅音连接时采用了预测误差的微分△E和信号能量的微分△E_s两个特征。综合分段算法可以确定语音串中音节的边界。当输入速度为4~5音节时分割成功率达97.5%。我们采用此方法对定人发音的数字串和连接词进行一系列识别实验、识别结果验证了方法是简便和有效的。  相似文献   

2.
为提高汉语连续语音识别系统的性能,建立了音节间相关的半音节识别单元,并研究了基于这种单元的连续语音识别算法。讨论了基于 D D B H M M 模型和最大后验概率估计准则的连续语音识别的理论基础,依据动态规划的基本原理,提出了一种基于音节间相关的识别单元的汉语连续语音识别算法。依照这种算法,不但能得到最优句子侯选,而且能够在识别过程中得到音节格(即 Nbest句子侯选)的数据结构。最后通过大词汇量非特定人连续语音识别的实验,表明了采用音节间相关的识别单元比基本的识别单元误识率有明显的降低  相似文献   

3.
一种新型汉语单音节识别方法   总被引:1,自引:0,他引:1  
介绍了一种新型字基 VQ/HMM语音识别方法: VQ与 HMM分级识别算法。 使得 VQ部分可用作语音识别的第一级处理, HMM部分作第二级识别。在第一级识别中 可引进汉语的音素知识,使 VQ/HMM性能进一步提高,并可用于大字汇表的实时语音识 别,存贮量、计算量均大大减少。用此方法把汉语四声作一个 HMM模型,使汉语 400 个基本音节的识别率达 96%以上.若加上精确四声识别则可识别汉语的 1200种声音。  相似文献   

4.
汉语语音识别中对孤立词、小词汇特定人的语音识别率较高,但对于连续的大词汇量语音识别率较差。把连续的大词汇语音实时自动地切分为单个音节,可以提高其系统的识别率。本文根据汉语语音在能量和频率等方面的特征,找到了短时平均幅度和短时平均过零率的方法来检测音节的端点,从而得到对文本文件中汉语语音的音节自动切分算法。  相似文献   

5.
基于后验概率词格的汉语自然对话语音索引   总被引:1,自引:0,他引:1  
语音索引是语音检索任务的关键问题之一.该文针对汉语自然对话语音索引问题,提出了基于子词的词格索引和融合方法.采用后验概率形式表示的词格取代最优路径进行索引.根据后验概率词格特性,将LVCSR识别得到的基于词的词格分解为基于子词的词格;在汉语自然对话语音关键词检测任务上,采用字、有调音节和无调音节作为子词单元,关键词检测指标品质因数相对基线系统分别提高了3.9%、4.4%和7.4%.根据后验概率词格节点之间、边之间可合并的特性,在词格内部进行合并,并对不同识别器结果词格进行融合,品质因数指标由基线系统的68.3%(用LVSCR得到的)和66.9%(用音节识别器得到的)提高到78.8%.  相似文献   

6.
针对多候选汉语音节网格语音关键词检索任务,在Gauss混合模型以及多候选识别算法方面进行了研究改进。首先探讨了Gauss混合模型的不同简化策略并用实验进行了验证,证明了全协方差矩阵在识别性能上的优越性;随后对经典的多候选令牌传递算法做出了针对汉语特点的改进。实验表明这2方面的研究不仅提高了以音节作为输出的语音识别引擎的单候选识别效果,也大幅提高了多候选的识别性能。最后搭建了一个基于多候选网格的语音关键词检索系统,在该系统中验证了上述改进的效果。  相似文献   

7.
作为一种人机信息交互技术,语音识别技术得到了广泛的应用.介绍了基于凌阳十六位单片机SPCE061A的语音识别系统.并且采用了以传统的线性预测倒谱系数(LPCC)与分形维教相结合的混合参数作为特征参数的语音识别方法.LPCC方法是体现说话人特定的声道共振特性的线性预测方法,而分形维数则可以定量的描述语音气流中的非线性混沌特征.实验结果表明,基于LPCC与分形维数混合参数的语音识别方法要比单一的LPCC参数语音识别方法识别效果好.  相似文献   

8.
为了提高中小词汇量语音识别系统在噪声环境下的识别性能,以10个汉语数码语音为对象,利用汉语数码语音信号区别于噪声信号的准周期特性,提出了一种汉语数码语音频谱包络峰值特性的提取方法,首先用基频对语音频谱采样得到由谐波值构成的包络以提高信噪比,然后再对所得包络进行峰值提取得到汉语数码语音的峰值特征。实验结果表明,在信噪比大于5dB时,用该方法得到的峰值特征具有一定的抗噪性。  相似文献   

9.
汉语连续语音识别中上下文相关的声韵母建模   总被引:8,自引:1,他引:8  
声学建模是汉语连续语音识别中的关键步骤之一。根据汉语语音的特点,采用扩展声韵母(XIF)作为识别基元,并针对XIF基元设计了相应的问题集,利用基于决策树的状态共享策略建立上下文相关声韵模型(Tri-XIF)。将Tri-XIF模型与上下文相关音素模型(Tri-phone)、上下文无关音节模型进行了对比。提出了几种方法用于改善标注、改进问题集和降低模型规模。实验结果表明,Tri-XIF模型与Tri-phone模型、音节模型相比,识别性能有了很大提高,其音节误识率分别降低了24.53%和41.65%。采用了所提出的优化策略后,模型规模降低20%以上,而性能下降很少。  相似文献   

10.
汉语孤立词声韵分割算法的研究   总被引:2,自引:0,他引:2  
文章从汉语语音评价系统设计的需要出发,针对DTW算法和汉语音节的特点,研究并实现了汉语音节中声母和韵母分割的两种算法,算法依据的基础都是依据不同类语音段数据相异的原理.在实际系统测试中,发现基于段间距离的分割算法取得了良好的实验结果,可以作为汉语语音评价系统中的声韵分割算法.  相似文献   

11.
研究一种中文语音信息编码技术.通过采用语音小波分析识别处理和语音信息特征编码,包括中文语音小波包分解、语音音素和音节声调识别、口音特征参数提取、语音信息和特征参数组合编码,这种低比特率编码技术理论上可将传输效率提高1倍.  相似文献   

12.
Fractal dimension of voice-signal waveforms   总被引:2,自引:0,他引:2  
The fractal dimension is one important parameter that characterizes waveforms. In this paper, we derive a new method to calculate fractal dimension of digital voice-signal waveforms. We show that fractal dimension is an efficient tool for speaker recognition or speech recognition. It can be used to identify different speakers or distinguish speech. We apply our results to Chinese speaker recognition and numerical experiment shows that fractal dimension is an efficient parameter to characterize individual Chinese speakers. We have developed a semiautomatic voiceprint analysis system based on the theory of this paper and former researches. Foundation item: Supported by the Special Funds for May State Basic Research Projects Biography: Xie Yu-qiong(1964-), female, Ph. D candidate, research direction: fractal geometry.  相似文献   

13.
14.
双门限算法是语音端点检测的一种重要方法,对藏语语音识别和处理具有重要意义。提出了用双门限端点检测技术对藏语语音进行音节分割的方法,首先根据双门限语音端点检测原理进行Matlab编程和仿真,然后结合藏语语音的音节特点和双门限算法分别在正常语速和慢语速环境下对藏语的30个辅音语音、随机抽取的双音节、三音节及句子语音进行双门限算法的音节分割和分析,实验表明双门限算法对没有太多连读音节的藏语语音和慢语速下长句的音节分割准确率较高。  相似文献   

15.
说话人识别中改进的MFCC参数提取方法   总被引:1,自引:0,他引:1  
何朝霞 《科学技术与工程》2011,18(18):4215-4218,4227
在说话人识别技术中,特征参数的提取对语音训练和识别有着非常重要的作用。而Mel频标倒谱系数MFCC是一种常用的特征,它能对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。同时由于语音信号具有时变和混沌特性,以非线性随机共振理论和人类对听觉的理解为基础,提出了一种基于随机共振的MFCC特征参数提取方法。通过实验比较两种方法的结果,论证了改进方法的可行性以及优越性,为说话人识别技术中特征参数提取提供了一条新的研究方向。  相似文献   

16.
为提高噪声不平稳或不可估的情况下语音识别的稳健性,提出了利用自回归模型和短时平稳性假设,估计干净与噪声环境的语音数据,建立相应的语音识别模型,以达到抗噪效果的稳健语音信号处理方法。在N o iseX-92的4种噪声环境(w h ite,babb le,vo lvo,destroyer eng ine)从0到20 dB的不同信噪比下的“863”大词汇连续语音标准数据库的平均识别结果表明,该方法能够使得基于段长分布的隐M arkov模型的语音识别系统在25候选时声学层的音节相对错误率下降达到10.85%以下,同时相对正确识别率上升12.13%。  相似文献   

17.
面向训练语料有限的语音识别任务,基于动态时间规整(dynamic time warping, DTW)算法对俄语语音进行识别。首先,以跨语言标注的语音语料为资源基础,研究融合音字转换和机器翻译的语音识别方法。其次,结合俄语语音特点,以元音为中心设置动态门限阈值,实现精确至音节的端点检测,识别速度提高了34.4%,准确率提高了14%。然后,综合时域、频域分析,提取反映语音静态特征和动态变化的参数模板。另外,引入全局限制和早弃策略改进DTW算法,避免病态匹配,缩小计算规模,使速度提高了19.7%,准确率提高了4.8%。在俄语短指令语音集上做五折交叉验证,识别准确率达到74.9%。  相似文献   

18.
针对传统的隐含马尔可夫模型(hidden Markov model,HMM)存在的缺陷,该文提出了一种在识别的后处理阶段使用段长模型的方法,并应用在基于HMM的汉语识别系统上。该方法利用归一化的段长模型对识别系统的解码结果重新打分,比较前后两次算出的分数从而选出更可靠的识别结果。实验表明,通过该方法将段长模型应用在识别过程中,可以显著提高识别系统的性能,大量减少识别结果中的插入错误。数据显示,该方法使识别系统的音节错误率下降了大约10%,识别系统最终的插入错误和删除错误都低于1%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号