首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 382 毫秒
1.
根据听觉语音学的知识,提出使用稀疏自动编码器在MFCC特征基础上进行深度学习,提取了深度特征模仿听觉神经的稀疏触动信号,有利于HMM模型语音识别精度的提高.实验结果显示,学习到的深度特征较MFCC特征在藏语语音识别正确率方面有明显提高.  相似文献   

2.
随着深度学习理论的兴起,BLSTM-CTC模型成为目前主流的语音识别声学模型之一.本文借鉴国内外语音识别框架,结合藏语言文字特点,提出基于BLSTM-CTC模型的藏语语音识别方法.该方法以识别非特定人藏语连续语音为目标,通过提取语音的MFCC特征参数,建立了以音素为建模单元的藏语语音声学模型.在不同建模单元下LSTM-CTC模型和BLSTM-CTC模型的对比实验表明,该方法能够充分利用上下文信息,具有较强的建模能力和语音识别效果.  相似文献   

3.
说话人性别识别是语音识别研究中的一个重要分支.通过说话人的语音识别作为说话人性别识别的预分类技术可以降低研究问题的复杂度,提高系统的准确率.文中首先从建立的藏语语音性别库入手,提取语音的特征参数MFCC,进而利用SVM进行训练和识别.实验结果表明:用于说话人识别的MFCC特征能有效地用于藏语说话人性别识别,且与SVM联...  相似文献   

4.
藏语孤立词语音识别系统研究   总被引:3,自引:0,他引:3  
藏语语音研究相当滞后,文章结合语音识别知识和藏语特点,尝试性地研究了藏语孤立词语音识别研究.首先提取MFCC参数作为语音特征参数,形成语音模板库,采用DTW模型实现了语音识别系统,并且针对藏语孤立词多音节的特点,改进了传统的基于短时能量和短时过零率双门限检测法,即加入了音节间静音段时长门限,提高了孤立词语音信号检测的准确性和识别率.  相似文献   

5.
MFCC(Mel Frequency Cepstrum Coefficient)是语音处理过程中需要提取的重要频率参数之一,因其很好地模仿人耳的听觉感知,在各种语音识别和合成过程中得到广泛的应用。文章在分析标准的MFCC参数提取算法基础上,通过合并参数算法提取了藏语语音的MFCC,并给出了在Matlab里进行仿真实验的详细步骤。  相似文献   

6.
藏语特征提取算法是藏语语音识别系统中最为关键的一个环节。文章在分析藏语发音特点的基础上,建立了基于模拟人耳听觉系统的Mel倒谱系数(MFCC)特征提取算法,然后通过LDA信息压缩算法,对提取的特征数据进行压缩,在降低维数的同时提高了识别率和运算效率,总结出了符合藏语语音特点的LDA-MFCC特征提取算法。  相似文献   

7.
语音情感识别是人机交互、情感计算中重要的研究方向.目前普遍使用深度神经网络用于语音情感特征的提取,但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题,提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型,从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征,并通过随机森林对其进行特征选择,在三种公用的情感语料库EMODB,SAVEE,RAVDESS上分别取得了79%,69%以及75%的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充,进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性.  相似文献   

8.
藏语数字语音识别是藏语语音识别中的基础环节。文章以藏语数字语音信号产生的数学模型为研究对象,从频域、时域、倒谱域出发,对藏语数字语音识别进行了分析,重点论述了藏语数字语音识别的原理、仿真实验及测试方法。以藏语数字语音库为数据资源,对藏语数字语音建立了训练模型并从中提取语音特征,通过模板匹配算法,获取录音数据中待识别语音的模板。实验证明已建立语音库的识别率达100%,随机录音的识别率则达90%。  相似文献   

9.
基于径向基神经网络的数字"0"~"9"语音识别   总被引:1,自引:0,他引:1  
介绍了语音信号分析方法中的线性预测编码技术和滤波器组分析方法,并推导了MFCC系数.分析并讨论了语音识别研究中径向基神经网络的设计原则,以及特征参数等对语音识别结果的影响.实验结果表明:基于径向基神经网络的语音识别方法有着较好的识别性能和应用效果,针对非特定人的孤立词识别,识别率可以达到90%以上.  相似文献   

10.
抽取短时声学特征参数如MFCC、PLP,使用高斯混合模型(GMM)估计特征参数对应音素的概率分布的隐马尔可夫模型(HMM)在大词汇连续语音识别系统(LVCSR)已取得了良好识别效果.但短时特征却不能有效反应连续帧之间的相关特性,因此运用神经网络多层感知器(MLP)产生两类差异特征用于描述该帧的音素后验概率,并将其与传统特征复合为新的特征参数流,利用新特征流对GMHMM模型进行重构.对比实验结果表明,采用该混合声学特征的LVCSR系统其错字率(CER)有了3%~7%的改善.  相似文献   

11.
为了研究空中交通管理领域中的语音增强问题,并且节约存储资源,提出了一个新的语音增强方法.在基于全卷积神经网络(FCN)的基础上加入了跳跃连接(Skip Connection),并引入次要特征来进行联合学习.具体而言,使用语音的对数功率谱(LPS)作为网络的主要训练特征,引入对数梅尔倒谱系数(L-MFCC)作为网络的次要训练特征,来联合优化网络参数.实验证明,相较于单个LPS特征输入的架构,结合LPS和L-MFCC的多特征网络架构具有更好的语音增强性能表现,且作为次要特征的L-MFCC还可以用作其它用途.实验还证明,跳跃连接的加入可以很好的提高FCN的网络性能,且相较于基线的深度神经网络(DNN)模型,新的网络结构在相同参数数量的情况下,要具有更好的性能.  相似文献   

12.
为了识别大词汇量下连续长沙话方言语音,提出了基于CTC算法的门控线性单元神经网络模型.先通过梅尔倒谱系数提取语音的特征参数,再把提取的特征参数输入门控线性单元神经网络,用CTC算法进行训练优化,得到输入序列整个的预测标签.最后在自建的长沙话方言语料库上,以词错率作为评价指标,对CTC模型、GRU模型和CTC-GRU模型进行对比,结果表明CTC-GRU模型相对于其他2个模型收敛速度更快,结果更精准.  相似文献   

13.
语音合成和语音转换等技术正逐渐成为合成语音的主流方法,合成语音对社会稳定和国家安全都具有潜在的风险。为进一步提高合成、转换伪造语音检测的准确率,从混合网络模型,特征选择出发,提出了基于CNN-RNN-DNN网络的3种混合网络模型,分别为CNN-LSTM-DNN、CNN-GRU-DNN、CNN-BiLSTM-DNN。模型中卷积神经网络(convolutional neural network, CNN)部分可以进行下采样,循环神经网络(recurrent neural network, RNN)部分解决语音中的时序问题,深度神经网络(deep neural network, DNN)部分则实现分类功能。每种混合网络模型包含20层网络层。对提取的6种声学特征进行实验,其中CNN-LSTM-DNN+MFCC的组合表现最优,等错误率为5.79%,比ASVspoof2019提供的B02基线系统低28.43%。比较了3种混合网络结合6种特征的表现并增加了其与4种单独网络的对照实验,结果表明本文提出的混合网络模型具有性能稳定、准确率高等优点且梅尔频率倒谱系数(mel-frequency cepstr...  相似文献   

14.
当前非定特人语音识别算法大多只适于连续语音,且识别精度和速度均较低。为此,提出一种新的基于BP神经网络的非特定人语音识别算法,介绍了标准BP神经网络,针对其收敛速度慢的弊端,通过变化的自适应学习速率,令网络训练针对各种阶段自行设置学习速率值,利用变学习速率构建对应的改进BP神经网络模型,将改进的BP神经网络模型看作识别非特定语音的识别器,输入待识别语音,令累计预测残差达到最小,实现非特定人语音识别。将改进模型应用于非特定人语音识别中进行验证,结果表明所提算法识别率更高、识别速度更快,不仅适于连续语音的识别,也适于不连续语音的识别。  相似文献   

15.
语音端点检测(voice activity detection,VAD)是在连续语音信号中,将语音和非语言片段分离的技术。VAD在语音识别、说话人识别、语音编码等领域起着重要作用。传统VAD算法在类型已知的噪声环境下可以达到较好的性能,但在实际情况中,未知噪声的影响通常会使系统性能下降显著,在差异化噪声下的VAD是端点检测的研究难点。在总结现有语音端点检测算法基础上,提出了一种基于深度神经网络的语音端点检测方法,同时结合维特比算法,与基于贝叶斯信息准则(bayesian information criterion, BIC)的混合高斯模型(gaussian mixture model,GMM) 语音端点检测系统进行对比,在大词汇连续语音识别系统中的实验结果表明,将深度神经网络结合维特比算法,应用于语音端点检测,在复杂噪声环境下取得了更好的效果,适应性更强。  相似文献   

16.
为了解决语音识别中由网络加深导致的低层特征消失、参数量大及网络训练困难的问题,基于Inception V3网络的非对称卷积思想,提出了一种改进的密集连接卷积神经网络(densely connected convolutional neural networks, DenseNet)模型。根据语音识别的长时相关性,通过密集连接块建立起不同层之间的连接关系,从而保存低层特征、加强特征传播;为了得到尺度更丰富的声学特征,将卷积核的范围进行扩大;利用非对称卷积思想分解卷积核,以减少参数量。实验结果表明,相较经典深度残差卷积神经网络模型和原始DenseNet模型,提出的模型在THCHS30数据集上的语音识别性能更好,在保证识别率的情况下,还减少了网络参数量,提高了模型训练效率。  相似文献   

17.
针对实性肺结节CT影像数据量少、人工标注耗时耗力等问题,提出一种结合生成对抗网络和集成学习的实性肺结节良恶性计算机辅助诊断方法.首先,使用基于梯度惩罚的生成对抗网络对肺结节CT影像数据集进行扩充,缓解由数据量少、样本类别不均衡导致的模型过拟合.然后,利用卷积神经网络进行CT影像特征提取,并通过主成分分析对深度特征进行降维.最后,联合CT图像特征和有效临床信息,采用集成学习方法构建分类模型预测实性肺结节良恶性.基于多中心临床数据分析表明,相比于传统卷积神经网络模型,所提出方法有更好的预测性能.  相似文献   

18.
基于卷积神经网络的连续语音识别   总被引:3,自引:0,他引:3  
在语音识别中,卷积神经网络( convolutional neural networks,CNNs)相比于目前广泛使用的深层神经网络( deep neural network,DNNs),能在保证性能的同时,大大压缩模型的尺寸。本文深入分析了卷积神经网络中卷积层和聚合层的不同结构对识别性能的影响情况,并与目前广泛使用的深层神经网络模型进行了对比。在标准语音识别库TIMIT以及大词表非特定人电话自然口语对话数据库上的实验结果证明,相比传统深层神经网络模型,卷积神经网络明显降低模型规模的同时,识别性能更好,且泛化能力更强。  相似文献   

19.
语音情感识别是人机交互的重要方向,可广泛应用于人机交互和呼叫中心等领域,有很大应用价值。近年来,深度神经网络在识别情感方面取得了巨大成功,但现有方法对高层语音特征提取会丢失大量原始信息并且识别准确率不高,本文提出了一种新的语音情感识别方法,由卷积神经网络从原始信号中提取特征,并在其堆叠一个2层长短时记忆神经网络,最终识别准确率达到91.74%,本文方法显著优于基于EMO-DB数据集等其他方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号