首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
近来,一种结合语音识别中深度神经网络(deep neural network,DNN)模型和说话人识别中身份认证矢量(identity vector,i-vector)模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能,该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量,从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征,基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。  相似文献   

2.
基于深度神经网络(deep neural network,DNN)的语音活动性检测(voice activity detection,VAD)忽略了声学特征在时间上的相关性,在带噪环境下性能会明显下降。该文提出了一种基于深度神经网络和长短时记忆单元(long-short term memory,LSTM)的混合网络结构应用于VAD问题。进一步对语音帧的动态信息加以分析利用,同时结合DNN-LSTM结构使用一种基于上下文信息的代价函数用于网络训练。实验语料基于TIDIGITS语音库,使用Noisex-92噪声库加噪。实验结果表明:在不同噪声环境下基于DNN-LSTM的VAD方法比基于DNN的VAD方法性能更好,新的代价函数比传统的代价函数更适用于该文提出的算法。  相似文献   

3.
刘潇  和应民  陈力伟 《应用科技》2006,33(6):18-20,23
介绍一种适用于实时语音识别环境下的神经网络模型——动态识别神经网络(dynamic recognition neural network,DRNN).DRNN聚类学习的性能使得它非常适用于与在线学习方式相结合的实时语音识别系统.通过比较DRNN和隐含马尔科夫模型(hidden Markov model,HMM),可以看到不论是在训练方面还是在识别方面,DRNN算法的计算复杂程度都要低于HMM算法.  相似文献   

4.
基于卷积神经网络的连续语音识别   总被引:3,自引:0,他引:3  
在语音识别中,卷积神经网络( convolutional neural networks,CNNs)相比于目前广泛使用的深层神经网络( deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比。在标准语音识别库TIMIT以及大词表非特定人电话自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强。  相似文献   

5.
为了解决语音分离中非负矩阵分解(non-negative matrix factorization,NMF)、深度神经网络(deep neural network,DNN)等算法没有考虑语音时序相关性的问题。结合NMF和长短时记忆网络(long short-term memory,LSTM)算法提出NMFLSTM单通道语音分离算法:将语音信号的幅度谱作为模型的输入特征,通过训练NMF和LSTM模型获得目标语音的基矩阵和系数矩阵,并对其结果进行语音重构最终实现语音分离。实验结果表明:相比于未考虑语音时间连续性的算法,使用NMFLSTM算法分离语音的客观语音质量评估值(perceptual evaluation of speech quality,PESQ)有明显提升,其最大值超过3. 1,获得良好的分离效果。  相似文献   

6.
双向长短时记忆(bidirectional lorg short term memory,BLSTM)是一种特殊的递归神经网络(recurrent neural network,RNN),能够有效地对语音的长时上下文进行建模。该文提出一种基于深度BLSTM的语音驱动面部动画合成方法,利用说话人的音视频双模态信息训练BLSTM-RNN神经网络,采用主动外观模型(active appearance model,AAM)对人脸图像进行建模,将AAM模型参数作为网络输出,研究网络结构和不同语音特征输入对动画合成效果的影响。基于LIPS2008标准评测库的实验结果表明:具有BLSTM层的网络效果明显优于前向网络的,基于BLSTM-前向-BLSTM 256节点(BFB256)的三层模型结构的效果最佳,FBank、基频和能量组合可以进一步提升动画合成效果。  相似文献   

7.
中文事件抽取通常使用循环神经网络(recurrent neural network, RNN)来进行事件和事件要素的抽取, 但 RNN 在处理长度较长的词语时容易丢失重要信息, 为此提出一种组合卷积神经网络(convolutional neural network, CNN)与双向长短期记忆(bidirectional long short-term memory, Bi-LSTM)网络的中文事件抽取模型 CNN-Bi-LSTM-CRF, 其中 CRF (conditional random field) 为条件随机场. 采用基于注意力机制和语义特征生成的字词联合向量, 使用 CNN 和 Bi-LSTM 模型对字词联合向量进行处理, 以获取其隐含表示, 最后通过 CRF 得出预测结果. 实验结果表明, 所提出的方法与其他现有的中文事件抽取方法相比, 准确率有明显提升.  相似文献   

8.
针对基于卷积神经网络(convolutional neural network,CNN)和长短期记忆网络(long short-term memory,LSTM)的方法存在计算复杂度高、收敛速度慢、训练时间长等问题,本文提出基于GoogLeNet和双层GRU的图像描述模型,在训练阶段采用适应性动量估计法(adaptiv...  相似文献   

9.
针对交通拥堵检测,提出一种利用深度学习中卷积神经网络(convolutional neural network, CNN)对交通拥堵图像进行检测的方法。首先,使用基于TensorFlow框架设计了含有三层卷积层的神经网络分类模型。其次,利用道路拥堵与非拥堵图片对分类模型进行训练,并进行评估。最后,利用训练完成的模型进行道路拥堵检测,与多种深度学习分类模型分类方法进行对比实验,表明该卷积神经网络模型能够更有效地进行拥堵检测,检测准确率达到了98.1%。  相似文献   

10.
深度神经网络技术在汉语语音识别声学建模中的优化策略   总被引:1,自引:1,他引:0  
将深度神经网络作为声学模型引入面向汉语电话自然口语交谈语音识别系统。针对自然口语中识别字错误率较高的问题,从语音的声学特征类型选择、模型训练时元参数调节以及改善模型泛化能力等方面出发,对基于深度神经网络的声学模型建模技术进行了一系列的优化。针对训练样本中状态先验概率分布稀疏的情况,提出了一种状态先验概率平滑算法,在一定程度上缓解了这种数据稀疏问题,经平滑后,字错误率下降超过1%。在所采用的3个电话自然口语交谈测试集上,相对于优化前的深度神经网络模型,经过优化后的模型取得了性能的一致提升,字错误率平均相对降低15%。实验结果表明,所采用优化策略可以有效地改善深度神经网络声学模型性能。  相似文献   

11.
为解决使用语音信号准确识别动物以保护和研究野生动物的问题,提出一种全连接算法与稀疏连接算法相结合的全卷积神经网络(FCNN: Fully Convolutional Neural Network),用于语音的自动识别.利用全连接算法提取更多的组合特征,稀疏连接算法筛选重要特征可加快收敛速度.同时给出了具体的模型结构及算法流程,并进行了动物语音识别实验.实验结果表明,该全卷积神经网络深度学习算法是一种语音自动识别的有效方法,解决了蛙声识别问题,为动物语音识别提供参考.  相似文献   

12.
介绍了径向基函数神经网络的原理、训练算法,并建立了RBF神经网络的语音情感识别的模型。在实验中比较了BP神经网络与RBF神经网络分别用于语音情感识别识别率,RBF神经网络的平均识别率高于BP神经网络3%。结果表明,基于RBF神经网络的语音情感识别方法的有效性。  相似文献   

13.
以汉语为研究对象,提出构建大规模高质量汉语复述平行语料的方法.基于翻译引擎进行复述数据增强,将英语复述平行语料迁移到汉语中,同时人工构建汉语复述评测数据集.基于构建的汉语复述数据,在复述识别和自然语言推理任务中验证复述数据构建及其应用方法的有效性.首先基于复述语料生成复述识别数据集,预训练基于注意力机制的神经网络句子匹...  相似文献   

14.
语音情感识别是人机交互、情感计算中重要的研究方向.目前普遍使用深度神经网络用于语音情感特征的提取,但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题,提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型,从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征,并通过随机森林对其进行特征选择,在三种公用的情感语料库EMODB,SAVEE,RAVDESS上分别取得了79%,69%以及75%的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充,进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性.  相似文献   

15.
针对佤语语谱图的识别无需考虑清、浊音的影响这一特征.利用傅里叶变换将佤语转换为对应的语谱图信息,将深度卷积神经网络的AlexNet模型用于佤语语谱图识别.实验表明,语谱图识别可以有效解决语音识别过程中清、浊音对实验识别结果的干扰,实验准确率达到96%.  相似文献   

16.
当前非定特人语音识别算法大多只适于连续语音,且识别精度和速度均较低。为此,提出一种新的基于BP神经网络的非特定人语音识别算法,介绍了标准BP神经网络,针对其收敛速度慢的弊端,通过变化的自适应学习速率,令网络训练针对各种阶段自行设置学习速率值,利用变学习速率构建对应的改进BP神经网络模型,将改进的BP神经网络模型看作识别非特定语音的识别器,输入待识别语音,令累计预测残差达到最小,实现非特定人语音识别。将改进模型应用于非特定人语音识别中进行验证,结果表明所提算法识别率更高、识别速度更快,不仅适于连续语音的识别,也适于不连续语音的识别。  相似文献   

17.
语音识别中HMM与自组织神经网络结合的混合模型   总被引:9,自引:0,他引:9  
基于隐马尔可夫模型和自组织神经网络模型提出了一种用于语音识别的混合模型,给出了训练调整权向量的算法,实验结果表明其在语音识别中具有很好的性能·  相似文献   

18.
为了识别大词汇量下连续长沙话方言语音,提出了基于CTC算法的门控线性单元神经网络模型.先通过梅尔倒谱系数提取语音的特征参数,再把提取的特征参数输入门控线性单元神经网络,用CTC算法进行训练优化,得到输入序列整个的预测标签.最后在自建的长沙话方言语料库上,以词错率作为评价指标,对CTC模型、GRU模型和CTC-GRU模型进行对比,结果表明CTC-GRU模型相对于其他2个模型收敛速度更快,结果更精准.  相似文献   

19.
以双向长短期记忆网络(Bi-LSTM)为核心,结合多层卷积神经网络以及单向长短期记忆网络构建了多层面隐喻识别模型.基于多特征协同作用的思想,利用依存关系特征、语义特征、词性特征等多特征融合输入方法,丰富了模型的学习信息.为降低信息干扰,利用基于统计学的规范化文本输入方法提升模型识别效果.在英文语料词层面和句层面实验中,各个特征均表现出明显的正向作用.裁剪和填充处理及多特征协调作用在英文语料词层面研究中使F_1值分别提升2.5%和5.1%,在句层面研究中F_1值分别提升3.1%和1.9%.在中文语料句层面实验中,最优效果的F_1值可达88.8%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号