首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
佤语是云南省西南部的一种跨境语言,构建佤语语音识别系统对国家安全、跨境文化交流和经济贸易都有着重要的意义.基于HTK平台,针对1 860个佤语常用词进行特定人孤立词语音识别.语音语料来源为录音棚和田野录音,语音规模录音棚男性2人、女性2人,田野录音男性3人、女性2人,每人每个词发音5遍,总的语料数量为83 700条.实验结果表明,对于上述的语料,进行的基于HTK的佤语特定人孤立词语音识别正确率在92%以上.  相似文献   

2.
针对智能家居缺少语音控制的问题,使用HTK和Qt Creator联合设计了一款具有语音识别功能的图形控制界面.结合隐形马尔科夫模型语音识别工具HTK和Qt交叉编译,描述了嵌入式软硬件平台的搭建过程.着重介绍了多线程并行的语音控制流程和软件实现过程.实验结果表明,该界面可以稳定地运行在ARMLinux平台下,且功能实现完整.语音识别的加入使得设备操作更加人性化、简便化,具有很高的实用性.由于Qt的可移植性,该界面可在多种平台下编译运行,有较好的扩展性.  相似文献   

3.
针对噪声环境下语音识别系统性能下降的问题,提出一种基于语音时频相关性的Mel特征矢量聚类补偿算法。该算法首先实现掩码估计,利用纯净语音信号时域和频域的相关性,实现了时频块的有效划分和基于时频块的语音特征聚类。在此基础上,对带噪语音的Mel语谱进行特征补偿。采用HTK工具和TIDIGITS数据库加入不同类别噪声的语音测试结果表明:该算法在不同信噪比条件下,获得了较基于频域相关性聚类特征补偿算法更好的性能。  相似文献   

4.
设计孤立词的语音识别系统,对小词汇量、非特定人的语音进行识别。利用HTK(Hidden Markov Model Toolkit,隐马尔科夫模型工具箱)语音识别工具包进行系统的搭建,从语音识别的原理出发,对每一个单词建立和训练隐马尔科夫模型,探讨语音识别的基本流程和实现方法,为连续语音识别研究打下基础。实验结果显示,隐马尔科夫模型对孤立词具有良好的识别性能。在正常说话语境下,对语料库中单词的识别率可达到80%。  相似文献   

5.
目前,高准确率的语音识别需要在大规模语料库上进行学习才能获得,然而大规模语料库的构建成本较高,某些语言很难采集到充足的语料,因此,基于小规模语料库的语音识别已成为目前挑战性的研究问题.元学习是模仿人类利用已有经验快速学习新知识的机器学习方法,在机器视觉单样本学习任务中表现出明显的优势,已成为新的机器学习研究热点.将元学习应用于单样本语音识别是解决基于小规模语料库语音识别这一挑战性问题的有效途径,在TIMIT和佤语数据库上,开展了基于Reptile元学习算法的单样本孤立词语音识别研究.实验结果表明,该算法能有效地提升模型收敛速度与泛化精度,从而提升了模型的学习能力,说明元学习方法有助于解决小规模语料语音识别这一挑战性问题.  相似文献   

6.
音素是一个语言体系中最小的语音单位,音素识别在大词汇语音识别任务中不受词汇和语句的限制.因此,选择音素作为识别单元,建立基于CNN-BGRU的神经网络模型,实现音素语谱图的分类.首先,使用短时傅里叶变换生成音素语谱图作为模型的输入;其次建立CNN-BGRU模型,利用改进的VGGNet模型提取音素语谱图的特征,再使用双向门控循环单元(BGRU)实现音素语谱图的序列信息表示;最后,通过Softmax分类器实现音素语谱图的分类.实验使用TIMIT英语语音数据集进行音素语谱图识别,准确率达到98.6%,优于CNN(VGG16)、CNN-RNN、CNN-BRNN、CNN-BLSTM这4个模型.  相似文献   

7.
介绍了基于隐马尔可夫模型(HMM)技术的语音识别原理,以航行信号灯的控制为例,提出了孤立词语音识别技术应用于船舶智能控制的方法.采用C++编程和语音识别工具箱HTK相结合的方法进行软件设计,然后以数字信号处理(DSP)芯片TMS320C5409为主完成硬件设计,实验结果表明该控制方法的正确识别率达到98 %以上,具有一定的可行性.  相似文献   

8.
普米语是一种无文字的少数民族语言,目前已处于濒危状态,建立语音语料库及开展语音识别研究是保护和传承普米语的重要手段.基于HTK的语音识别中,参数的选取对不同语言的识别率有很大的影响.针对MFCC维数、HMM状态数及GMM个数这3个参数对普米语的识别率进行研究,结果表明:普米语语音识别的最佳MFCC维数为13维,最佳HMM状态数为8个,最佳GMM个数为3个.  相似文献   

9.
端点检测是语音信号处理的过程中非常重要的一个环节,其准确性直接影响语音信号处理的速度和结果.特别是在实际应用中因信噪比较低,使得某些高信噪比下性能好的端点检测算法准确率也比较低.为了提高在低信噪比的环境下佤语语音端点检测的准确率,本文使用了一种基于多窗谱估计谱减法和能熵比法的语音端点检测复合算法.该算法首先利用多窗谱估计谱减法去除语音的背景噪音以提高信噪比;其次再对去噪后的语音使用能熵比算法进行端点检测;最后借助Matlab工具对佤语语音进行仿真实验.仿真结果表明:对于低信噪比的环境下的佤语语音,本文使用的基于多窗谱估计谱减法和能熵比法复合算法同常规能熵比算法相比,端点检测的准确率提高了34%.  相似文献   

10.
语音增强是语音识别的重要组成部分,它是将尽可能纯净的原始语音从嘈杂的语音中提取出来。其目的是提高语音质量,从而提高语音识别的准确率。笔者在总结近年来的语音增强的相关算法的基础上,将这些算法进行分类,分为基于数字信号处理的方法和机器学习的方法。本文介绍了基于数字信号处理和基于机器学习的语音增强算法,并总结了几种常用语音增强算法的优缺点,最后提出了语音增强算法进一步研究方向。  相似文献   

11.
基于条件随机场的越南语命名实体识别方法   总被引:2,自引:0,他引:2  
针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到83.73%。  相似文献   

12.
针对藏语读音首先看后加字,然后根据元音的位置关系决定读音,而且元音比辅音携带更多听觉感知信息的特点,提出了一种改进的HTK系统藏语孤立词语音识别技术.在识别特征参数中,增加更能表征元音特征的共振峰参数提高语音识别的正确性,通过循环迭代方法提高语音训练速度,利用藏文字母拉丁转写方法解决藏文和语音识别系统编码不一致的问题.在二次开发的HTK平台进行实验,正确率达到92.83%,实验结果表明元音特征在藏语音识别中起到重要作用.  相似文献   

13.
使用基于粒子群算法优化支持向量机识别算法实现对普米语语音的识别.首先通过傅立叶变换绘制出每条普米语语料的语谱图;再次,提取每张语谱图的图像特征构建特征向量;最后,运用支持向量机实现对普米语孤立词的分类.在运用支持向量机进行分类时,为了能够找到全局最优解,使用粒子群算法对支持向量机中的惩罚参数c和核函数参数g进行了优化,基于最优参数的分类准确率达到了89. 8%.  相似文献   

14.
语音拨号是语音识别的一个重要分支,其在手机中的应用更加广泛.但是目前国内语音拨号技术主要应用于汉语,藏语拉萨话的开发还相对较少.HTK是英国剑桥大学开发的一套基于C语言的语音处理工具箱,广泛应用于语音识别等领域.文章从HTK的基本原理和软件结构出发,设计了一个基于HTK的拉萨话语音拨号系统,并验证了其识别效率.对于开发拉萨话手机语音拨号,推动藏语信息化建设和方便藏族群众生活都有着一定的现实意义.  相似文献   

15.
面向训练语料有限的语音识别任务,基于动态时间规整(dynamic time warping, DTW)算法对俄语语音进行识别。首先,以跨语言标注的语音语料为资源基础,研究融合音字转换和机器翻译的语音识别方法。其次,结合俄语语音特点,以元音为中心设置动态门限阈值,实现精确至音节的端点检测,识别速度提高了34.4%,准确率提高了14%。然后,综合时域、频域分析,提取反映语音静态特征和动态变化的参数模板。另外,引入全局限制和早弃策略改进DTW算法,避免病态匹配,缩小计算规模,使速度提高了19.7%,准确率提高了4.8%。在俄语短指令语音集上做五折交叉验证,识别准确率达到74.9%。  相似文献   

16.
连接数字串语音识别   总被引:2,自引:0,他引:2  
 介绍了语音识别的一般方法,基于隐马尔可夫 (HMM )统计模型和HTK工具包,声学层选用单音子和二音子识别单元,给出了一个简单的,母语为非汉语的非特定人连接数字串识别实验.  相似文献   

17.
语音端点检测是语音处理分析过程中的一个重要组成部分,针对方差法在低信噪比下对语音信号端点检测准确率低的问题,本文提出一种子带频带方差法和谱减法相结合的检测算法,算法中采用多窗谱估计改进谱减法对河南方言语音进行降噪处理,并将得到的信号的子带频带方差进行端点检测.用Matlab进行仿真验证了此方法在端点检测中的准确性,该方法降低了河南方言语音处理的时间,为进一步提取河南方言语音识别特征参数提供了条件.  相似文献   

18.
针对语音/音乐分类过程中由于特征参数提取过多造成的维数灾难及分类准确率有待提高等问题,提出了一种基于过零率及频谱的语音/音乐分类算法.该算法在对语音及音乐2类信号进行端点检测及分段预处理后,结合每一音频段的过零率和频谱幅值特性进行分类识别处理,最后通过计算被判别为语音或音乐的概率实现分类.实验结果表明,此算法在音频分类中较同样最多只提2个音频特征且未用分类器算法的准确率平均提高约7.9%,较提取多个音频特征且采用分类器算法的准确率平均提高约5.7%.证明了该算法不仅计算量小,且分类准确率也有所提高.  相似文献   

19.
针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率.  相似文献   

20.
基于HTK的普米语孤立词的识别,通过对特定发音人和非特定发音人的语音进行特征分析、预处理、提取MFCC特征参数,从而建立每个普米词的HMM模型,最后采用Viterbi算法进行模型的训练和匹配.实验表明:对特定发音人和非特定发音人,随着普米词个数的增加,识别率虽有所下降,但是变化很小,识别率均超过了95.00%,识别效果很好.语料的信噪比和发音人的发音稳定性是导致识别率下降的重要原因.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号