首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
随着人工智能行业的不断发展,智能语音问答技术逐步得到国内外学者的广泛关注和研究,但是语音识别方面仍然存在两个技术瓶颈,第一是语音识别系统,第二是根据识别的语音进行问题的回答。基于此,开展了基于深度学习的智能语音问答系统研究。首先介绍了基于隐马尔科夫模型的语音识别系统,然后研究了基于梅尔频率的语音信号特征提取技术,并建立了声学和语言模型,最后研究了基于GRU算法的问答匹配模型,并基于以上模型开发了智能语音问答系统。经实际实验验证分析,文章所提出的算法在语音识别和问答的准确度方面都相比传统算法具有很高的精确度,本算法具有较大的实用价值。  相似文献   

2.
端到端的语音识别通过用单个深度网络架构表示复杂模块,减少了构建语音识别系统的难度.文中对传统的混合链接时序分类(Connectionist temporal classification, CTC)模型和基于注意力机制(Attention-based)模型的端到端语音识别架构进行了改进,通过引入动态调整参数对CTC模型和基于注意力机制模型进行线性插值,从而实现混合架构的端到端语音识别.将改进后的方法应用在中文普通话语音识别中,选择带投影层的双向长短时记忆网络(Bidirectional long short-term memory projection, BLSTMP)作为编码器网络模型,声学特征选取80维的梅尔尺度滤波器组系数和基频共83维特征.实验结果表明,与传统的端到端语音识别方法比较,文中方法在普通话语音识别上能够降低3.8%的词错误率.  相似文献   

3.
鲁棒语音识别技术综述   总被引:1,自引:0,他引:1  
鲁棒语音识别是为了解决噪声环境所引起的语音识别系统识别和训练不匹配的情况.依据噪声对语音识别系统的影响,从信号空间、特征空间及模型空间3个层面上分别对语音增强技术、特征增强技术及语音模型补偿、增强技术进行了总结,并分析了不同方法的特点、实现及应用.  相似文献   

4.
大数据时代为深度学习在语音识别中的应用提供了良好的平台.本文介绍了用于语音识别的深度学习模型及用于语音识别的深度学习的学习过程.语音识别技术中特征提取、模式匹配和模型训练都离不开大量训练数据的积累和匹配,而数据的可靠和有效依赖于算法的可行性.在大数据基础上,深度学习用于语音识别大大提高了识别率.  相似文献   

5.
深度神经网络技术在汉语语音识别声学建模中的优化策略   总被引:1,自引:1,他引:0  
将深度神经网络作为声学模型引入面向汉语电话自然口语交谈语音识别系统。针对自然口语中识别字错误率较高的问题,从语音的声学特征类型选择、模型训练时元参数调节以及改善模型泛化能力等方面出发,对基于深度神经网络的声学模型建模技术进行了一系列的优化。针对训练样本中状态先验概率分布稀疏的情况,提出了一种状态先验概率平滑算法,在一定程度上缓解了这种数据稀疏问题,经平滑后,字错误率下降超过1%。在所采用的3个电话自然口语交谈测试集上,相对于优化前的深度神经网络模型,经过优化后的模型取得了性能的一致提升,字错误率平均相对降低15%。实验结果表明,所采用优化策略可以有效地改善深度神经网络声学模型性能。  相似文献   

6.
随着深度学习理论的兴起,BLSTM-CTC模型成为目前主流的语音识别声学模型之一.本文借鉴国内外语音识别框架,结合藏语言文字特点,提出基于BLSTM-CTC模型的藏语语音识别方法.该方法以识别非特定人藏语连续语音为目标,通过提取语音的MFCC特征参数,建立了以音素为建模单元的藏语语音声学模型.在不同建模单元下LSTM-CTC模型和BLSTM-CTC模型的对比实验表明,该方法能够充分利用上下文信息,具有较强的建模能力和语音识别效果.  相似文献   

7.
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建.本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法.原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息.建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤....  相似文献   

8.
针对低资源环境下由于标注训练数据不足、造成语音识别系统识别率急剧下降的问题,提出一种采用长短时记忆网络的低资源语音识别(LSTM-LRASR)方法。该方法采用长短时记忆网络构建声学模型,从特征提取、数据扩展及模型优化3个方面提高低资源语音识别性能。在特征提取方面,提取语言无关的高层稳健特征参数,降低声学模型对训练数据的依赖;在数据扩展方面,对已有标注数据进行语速扰动,对无标注数据进行自动识别,从而自动获取更多标注数据;在模型优化方面,通过序贯区分性训练技术提高模型对易混淆音素的区分能力,利用最小风险贝叶斯解码对多个系统进行融合,进一步提高识别性能。对OpenKWS16评测数据的实验结果表明,采用LSTMLRASR方法搭建的低资源语音识别系统的词错率相对基线系统下降了29.9%,所有查询词的查询项权重代价提升了60.3%。  相似文献   

9.
为解决中文音频自动转成文字问题,IBM开发了GALE中文识别系统。该系统采用区分性声学模型训练方法和新颖的基于主题的语言模型自适应技术;为获得最优的识别性能,系统采用多遍解码的识别策略。该文还给出该系统在3个测试集上的识别结果:包括广播新闻和广播访谈节目,结果显示,IBM GALE中文识别系统取得了很好的识别性能;此外,该文还分析了特殊声学现象对识别结果的影响,结果显示,对识别率影响最大的3种声学现象为说话人语速过快、语音交叠和口音问题,这指示了系统下一步的改进方向。  相似文献   

10.
为了探究法庭说话人自动识别技术在司法实践中的应用价值,研究使用深度神经网络提取说话人身份向量,并构建了基于d-vector PLDA的法庭说话人自动识别系统,选用开源语音数据集VoxCeleb1和VoxCeleb2作为系统评测语料,在似然比框架下,利用不同采样率的语音数据和不同规模的训练数据集进行了系统测试和性能验证实验。结果表明,基于d-vector PLDA模型的法庭说话人识别系统识别性能优良,在司法语音实践中具有良好的潜力和应用前景,而基于高采样率语音数据的训练测试和较大规模PLDA自适应训练数据集的系统识别效果更佳。  相似文献   

11.
为了满足超大词表语法的识别任务在嵌入式语音识别系统上的应用,提出了一种高效的双层图搜索算法.该算法通过分离声学层和词法层来构建2层图搜索空间,其中声学层记录声学模型相关信息,词法层记录词表语法信息.利用这样简洁的搜索空间可以使语音识别的解码过程更加紧凑有效.在对比实验中,传统的基于前缀合并的状态树搜索算法的大词表嵌入式单词拼读系统作为基线系统.实验结果表明,与基线系统相比,所提出的双层图搜索算法在系统解码速度相对提高10%的情况下,系统的动态内存占用仅为基线的8%.通过使用所提出的双层图搜索算法,大大提高了大词表嵌入式单词拼读系统的效率,使其更适用于大多数嵌入式平台.  相似文献   

12.
甘宏 《江西科学》2022,(4):758-761
随着语音识别和自然语言处理技术的成熟,智能语音技术逐步落地到各行各业,但目前智能语音产品缺乏情感的交互,未实现真正的智能。为了提升智能语音产品的拟人性,学术界对语音情感识别的研究热度越来越高,但是多局限在使用传统特征工程以及通用深度学习模型上。在应用深度学习模型的基础上引入注意力机制对语音情感识别展开研究,选用语谱图作为输入特征,并对CNN输出的特征进行通道维度的注意力关注,分析注意力计算过程中不同池化方式对识别结果的影响,并引入残差,提升模型表现力,最终UA实现了2.83%的提升。  相似文献   

13.
该文讨论了神经网络语音识别系统中的KohonenSOFM神经网络的矢量量化(VQ)的原理与过程,着重解决了其在实际应用时的若干问题,包括网络大小,学习步幅函数以及矢量量化过程中的公平竞争学习的控制函数的选定。过讨论了基于听觉模型的声学特性的提取与处理,这与VQ性能息息相关。系统应用的实验表明,该神经网络在语音识别系统中具有良好性能。  相似文献   

14.
关键词检测是语音识别中一个重要的研究方向.关键词检测技术的重点之一就是代表非关键词语音的模型,不论识别系统的方法怎样,大部分是采用废料模型的,而废料模型的结构和类型对整个系统的性能有很大的影响.提出了一种基于音节格的废料模型.实验表明,与传统的基于音素类的废料模型相比,关键词的检测率有了很大的提高.  相似文献   

15.
维吾尔语是一种黏着语,单词不太适合作为维吾尔语大词汇连续语音识别系统识别单元。针对维吾尔语大词汇连续语音识别系统中的识别单元选择问题,设计更适合维吾尔语的子词识别单元,提出维吾尔语单词和子词相结合的组合识别单元构建方法,并对单词、子词和组合识别单元的语言模型和语音识别性能进行评价。实验结果表明,所提出的识别单元在单元数量、语言模型复杂度等方面表现出更加优越的性能,并且使识别系统的单词错误率比基于单词的系统相对减少22%。  相似文献   

16.
语音情感识别是情感计算领域的一个重要分支,研究者们尝试从多种角度对其展开不懈研究。本文从可视化的角度出发,提出了基于信息可视化的情感识别方法,原始语音情感特征经过图表示映射为包含内部数据结构信息的新型情感图特征,在一定程度上促进了语音情感识别系统的性能提高。另外,还将信息可视化技术应用到情感识别结果的表达上,实现情感信息的生动描述和高效表达。在信息可视化技术和语音情感识别研究充分融合的基础上,构建了一个完整的语音情感信息可视化模型,作为系统实现的基础。  相似文献   

17.
在机器听觉领域中,语音信号处理与识别早已成为一个传统的研究热点;随着信息科学与技术的迅速发展,音频与音乐信号分析也逐渐成为一个新的研究热点。乐器识别是音乐分析的一个重要应用,其主要的研究方向是基于声学特征的识别,近年来,在该领域有众多研究成果出现。文章对十多年来在基于声学特征的乐器识别领域所取得的研究成果进行综述,总结乐器识别技术常用的声学特征和识别方法。  相似文献   

18.
基于SQLite技术的汉语语音识别数据库的建立   总被引:1,自引:1,他引:0  
建立一个适合于特定说话人识别系统的汉语语音识别数据库,对推动说话人识别技术的研究和应用具有重要意义。本文基于支持向量机的说话人识别系统研究和开发过程中,构建了一个基于SQLite技术的汉语语音识别数据库,通过LabVIEW平台来实现对数据库控制操作。采用无序列样本和语音数据库样本分别进行比对实验。测试结果表明:一方面,无论是采用该语音识别数据库样本还是无序样本对说话人识别系统的识别率没有改变,这充分说明本系统建立的汉语语音识别数据库具有高稳定性和可靠性;另一方面,采用语音识别数据库样本其系统识别时间却明显缩短,这是改善基于支持向量机的说话人识别系统性能的有效途径。  相似文献   

19.
根据语音发声过程中的混沌特性,应用非线性动力学模型分析情感语音信号,提取了该模型下情感语音信号的非线性特征以及常用的声学特征(韵律特征和MFCC).设计情感语音识别对比实验,将非线性特征与不同声学特征融合并验证了该组合下的情感识别性能,研究了语音信号混沌特性对情感语音识别性能的影响.实验选用德国柏林语音库4种情感(高兴、愤怒、悲伤和中性)作为语料来源,支持向量机网络用于情感识别.结果表明,非线性特征有效表征了情感语音信号的混沌特性,与传统声学特征结合后,情感语音识别性能得到了显著提高.  相似文献   

20.
随着信息化时代的快速到来以及计算机技术的不断完善发展,语音识别在众多领域都得到了应用,同时语音识别有着广阔的发展前景。当下,在对语音识别的研究方面,研究人员大多以线性系统理论为基础,采用隐马尔可夫模型(HMM)、动态时间规整(DTW)、矢量量化(VQ)等技术。随着研究的深入,发现以线性系统理论为基础的方法和语音的非线性过程特性不能很好的融合,采用非线性理论研究成为了语音识别的重要突破口。人工神经网络(ANN)等非线性理论成为了研究语音识别的热点。采用Python语言进行深度学习与语音识别相结合的方法进行研究,希望能够使语音识别在速度、准确度等方面得到较好的效果。介绍了Python在深度学习语音识别中的使用。通过实验结果可以看出,DNN-HMM方法在准确率方面比GMM-HMM方法有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号