首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
语音关键词识别技术作为语音识别的重要分支在20世纪90年代逐渐被重视起来,时至今日,语音关键词识别技术已经被应用到车内语音命令识别、机器人交互及特殊语音筛选等众多领域。本文给出了语音关键词识别技术的整体模型及性能评价指标,综述了语音关键词识别系统声学模型构建技术的现状,详细总结了语音关键词识别系统声学模型构建技术,并重点总结了深度学习在声学模型构建上的应用。最后对语音关键词识别技术的发展前景进行了讨论,认为深度学习隐马尔科夫混合模型作为连续语音识别中最成熟的模型构建技术将在关键词识别中有更多应用,循环神经网络有可能凭借其序列训练能力成为更有效的模型构建技术,而大计算量、云平台及便携可穿戴将会成为语音关键词识别技术发展的主流方向。  相似文献   

2.
一种新型语音识别系统   总被引:1,自引:0,他引:1  
提出一种新型语音识别系统,采用帧能量与帧过零率的乘积作为指标量进行语音端点检测,以MFCC作为语音信号特征矢量,基于HMM语音识别模型进行语音识别.同时,提出了一种新的抗噪语音识别方法,通过改进型重复Wiener滤波结合PUM模型进行抗噪语音识别,较好地抑制了噪声干扰,提高了语音识别率.  相似文献   

3.
当前非定特人语音识别算法大多只适于连续语音,且识别精度和速度均较低。为此,提出一种新的基于BP神经网络的非特定人语音识别算法,介绍了标准BP神经网络,针对其收敛速度慢的弊端,通过变化的自适应学习速率,令网络训练针对各种阶段自行设置学习速率值,利用变学习速率构建对应的改进BP神经网络模型,将改进的BP神经网络模型看作识别非特定语音的识别器,输入待识别语音,令累计预测残差达到最小,实现非特定人语音识别。将改进模型应用于非特定人语音识别中进行验证,结果表明所提算法识别率更高、识别速度更快,不仅适于连续语音的识别,也适于不连续语音的识别。  相似文献   

4.
随着深度学习理论的兴起,BLSTM-CTC模型成为目前主流的语音识别声学模型之一.本文借鉴国内外语音识别框架,结合藏语言文字特点,提出基于BLSTM-CTC模型的藏语语音识别方法.该方法以识别非特定人藏语连续语音为目标,通过提取语音的MFCC特征参数,建立了以音素为建模单元的藏语语音声学模型.在不同建模单元下LSTM-CTC模型和BLSTM-CTC模型的对比实验表明,该方法能够充分利用上下文信息,具有较强的建模能力和语音识别效果.  相似文献   

5.
当前非特定人语音识别算法大多只适于连续语音,且识别精度和速度均较低。为此,提出一种新的基于BP神经网络的非特定人语音识别算法。介绍了标准BP神经网络,针对其收敛速度慢的弊端,通过变化的自适应学习速率,令网络训练针对各种阶段自行设置学习速率值;利用变学习速率构建对应的改进BP神经网络模型。将改进的BP神经网络模型看作识别非特定语音的识别器,输入待识别语音,令累计预测残差达到最小,实现非特定人语音识别。将改进模型应用于非特定人语音识别中进行验证。结果表明所提算法识别率更高、识别速度更快,不仅适于连续语音的识别,也适于不连续语音的识别。  相似文献   

6.
大数据时代为深度学习在语音识别中的应用提供了良好的平台.本文介绍了用于语音识别的深度学习模型及用于语音识别的深度学习的学习过程.语音识别技术中特征提取、模式匹配和模型训练都离不开大量训练数据的积累和匹配,而数据的可靠和有效依赖于算法的可行性.在大数据基础上,深度学习用于语音识别大大提高了识别率.  相似文献   

7.
为了获得更好的语音情感识别的实时性和正确率,该文提出了基于核典型相关分析和支持向量机的语音情感识别模型。首先提取多种情感识别的特征,采用核典型相关分析对特征进行选择,将选择的特征作为支持向量机的输入向量进行训练,建立情感识别的分类器,最后采用语音情感识别的标准数据库进行验证性和对比实验。实验结果表明,该模型能够准确识别不同类型的语音情感,获得较高的语音情感识别率。核典型相关分析减少了分类器的输入向量数,加快了情感识别速度,获得了理想的实时性。该文语音情感识别结果优于对比模型,具有更高的实际应用价值。  相似文献   

8.
随着科学技术尤其是计算机技术的不断发展,语音识别被广泛应用到各个领域.针对方向指令的语音,使用梅尔倒谱系数(Mel-Frequency Cepstrum Coefficient,MFCC)作为特征参数,连续马尔科夫模型(Continuous Hidden Markov Model,CHMM)作为识别模型,对语音信号进行识别处理.实验结果显示,此方法在方向指令语音识别中取得了良好的结果,有较高的识别准确率.  相似文献   

9.
在与文本相关的说话人识别研究中,既要包含说话人身份的识别,又要包含语音文本内容的识别.提出一种基于语音识别的与文本相关的说话人识别方法,从而建立说话人的声纹模型和语音文本模型,与传统的仅建立一种模型的方法相比,该方法能更精确地描述说话人身份信息和语音的文本信息,较好地解决了短时语音样本识别效果不佳的问题.测试实验表明,和传统与文本相关的说话人识别方法(如基于动态时间规整、高斯混合-通用背景模型)相比,由本方法建立的系统虚警概率降低了8.9%,识别性能得到了提高.  相似文献   

10.
设计孤立词的语音识别系统,对小词汇量、非特定人的语音进行识别。利用HTK(Hidden Markov Model Toolkit,隐马尔科夫模型工具箱)语音识别工具包进行系统的搭建,从语音识别的原理出发,对每一个单词建立和训练隐马尔科夫模型,探讨语音识别的基本流程和实现方法,为连续语音识别研究打下基础。实验结果显示,隐马尔科夫模型对孤立词具有良好的识别性能。在正常说话语境下,对语料库中单词的识别率可达到80%。  相似文献   

11.
为解决使用语音信号准确识别动物以保护和研究野生动物的问题,提出一种全连接算法与稀疏连接算法相结合的全卷积神经网络(FCNN: Fully Convolutional Neural Network),用于语音的自动识别.利用全连接算法提取更多的组合特征,稀疏连接算法筛选重要特征可加快收敛速度.同时给出了具体的模型结构及算法流程,并进行了动物语音识别实验.实验结果表明,该全卷积神经网络深度学习算法是一种语音自动识别的有效方法,解决了蛙声识别问题,为动物语音识别提供参考.  相似文献   

12.
随着人工智能行业的不断发展,智能语音问答技术逐步得到国内外学者的广泛关注和研究,但是语音识别方面仍然存在两个技术瓶颈,第一是语音识别系统,第二是根据识别的语音进行问题的回答。基于此,开展了基于深度学习的智能语音问答系统研究。首先介绍了基于隐马尔科夫模型的语音识别系统,然后研究了基于梅尔频率的语音信号特征提取技术,并建立了声学和语言模型,最后研究了基于GRU算法的问答匹配模型,并基于以上模型开发了智能语音问答系统。经实际实验验证分析,文章所提出的算法在语音识别和问答的准确度方面都相比传统算法具有很高的精确度,本算法具有较大的实用价值。  相似文献   

13.
自适应高斯混合模型语音增强方法   总被引:1,自引:0,他引:1  
陈立伟  王文姝   《应用科技》2009,36(7):11-15
语音增强是解决噪声污染的有效方法,它的首要目标是在接收端尽可能从带噪语音中恢复纯净的语音信号.针对噪声环境下的语音增强问题,提出了一种语音增强新方法.该方法利用小波子带的方向性特点以及小波系数尺度内的相关性,将小波系数的概率分布建模为一种自适应高斯混合模型,在贝叶斯框架中采用这种概率模型可以得到一种具有空间自适应性的贝叶斯萎缩函数.利用这种萎缩函数可以实现对小波系数的修正.仿真实验表明,该算法对于噪声有较好的抑制作用,该算法在主观和客观测试中都具有良好的语音增强效果,可以在语音识别、语音编码中获得应用.  相似文献   

14.
提出了一种可用于嵌入式ASR系统的语音/噪声分类的新方法,该方法利用一个噪声模型,对每帧信号的评价值进行语音/噪声分类.实验表明,该方法可以有效地区分语音和噪声,并表现出在各种噪声环境和不同信噪比条件下的鲁棒性.该算法已经集成进一个ASR系统,并在Corn-paq iPAQ上进行了测试,其计算代价不到整个系统代价的10%.  相似文献   

15.
用 TMS320C31 实时实现电话语音识别系统   总被引:3,自引:0,他引:3  
描述了一个新型实时声控用户交换机语音接口的设计和实现。该系统使用数字信号处理器TMS320C31开发板在PC机WINDOW平台下实现了与人无关连续命令语音识别,完成拨号、进行电话交换。系统使用少量控制词加上连续数字串构成了电话用户交换系统的常用命令语句,并生成相应识别文法网络(语言模型)。识别采用改进的令牌传递式Viterbi算法。研究中还开发识别系统拒识算法,在无拒识情况下命令语句中数字识别率为98%以上,数字串(串长<4)识别率达到91%以上,通过加入拒识算法,字符串识别率可达95%以上。  相似文献   

16.
深度神经网络技术在汉语语音识别声学建模中的优化策略   总被引:1,自引:1,他引:0  
将深度神经网络作为声学模型引入面向汉语电话自然口语交谈语音识别系统。针对自然口语中识别字错误率较高的问题,从语音的声学特征类型选择、模型训练时元参数调节以及改善模型泛化能力等方面出发,对基于深度神经网络的声学模型建模技术进行了一系列的优化。针对训练样本中状态先验概率分布稀疏的情况,提出了一种状态先验概率平滑算法,在一定程度上缓解了这种数据稀疏问题,经平滑后,字错误率下降超过1%。在所采用的3个电话自然口语交谈测试集上,相对于优化前的深度神经网络模型,经过优化后的模型取得了性能的一致提升,字错误率平均相对降低15%。实验结果表明,所采用优化策略可以有效地改善深度神经网络声学模型性能。  相似文献   

17.
An English speech recognition system was implemented on a chip,called speech system-on-chip (SoC).The SoC included an application specific integrated circuit with a vector accelerator to improve performance.The sub-word model based on a continuous density hidden Markov model recognition algorithm ran on a very cheap speech chip.The algorithm was a two-stage fixed-width beam-search baseline system with a variable beam-width pruning strategy and a frame-synchronous word-level pruning strategy to significantly reduce the recognition time.Tests show that this method reduces the recognition time nearly 6 fold and the memory size nearly 2 fold compared to the original system,with less than 1% accuracy degradation for a 600 word recognition task and recognition accuracy rate of about 98%.  相似文献   

18.
为了识别大词汇量下连续长沙话方言语音,提出了基于CTC算法的门控线性单元神经网络模型.先通过梅尔倒谱系数提取语音的特征参数,再把提取的特征参数输入门控线性单元神经网络,用CTC算法进行训练优化,得到输入序列整个的预测标签.最后在自建的长沙话方言语料库上,以词错率作为评价指标,对CTC模型、GRU模型和CTC-GRU模型进行对比,结果表明CTC-GRU模型相对于其他2个模型收敛速度更快,结果更精准.  相似文献   

19.
基于DTW的语音识别应用系统研究与实现   总被引:10,自引:0,他引:10  
DTW算法在实现小词汇表孤立词识别系统时既简单又有效,在特定的场合下获得了广泛的应用。通过对语音识别数学模DTW的研究和改进,实现了一个特定人孤立词,连接词的语音识别系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号