首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
研究一种基于神经网络的端到端中文语音识别算法.算法将语音信息处理为频谱图,基于频谱图,设计和实现一种基于卷积神经网络和循环神经网络的深度学习模型结构用于中文语音识别.模型以汉字作为标签样本,运用训练算法和序列损失函数进行模型迭代训练最终模型;采用开源数据集,通过实验验证网络结构对识别效果的影响,同时对比传统的语音识别算...  相似文献   

2.
基于BPNN/HMM神经网络的声学模型研究   总被引:1,自引:0,他引:1  
研制了一种基于BP神经网络和隐马尔可夫模型(HMM)的混合声学模型,BP神经网络的主要功能是把失真语音特征矢量转换成纯净语音特征矢量,而删则对转换后的纯净语音特征矢量进行分类,从模型级补偿的方面来提高语音识别系统的鲁棒性.讨论了一种基于线性预测的MKCC语音特征提取方法,该方法把提取出的失真语音特征矢量作为神经网络的输入,从而实现了特征参数级去噪处理的目的.  相似文献   

3.
为了提高情感语音合成的质量,提出一种采用多个说话人的情感训练语料,利用说话人自适应实现基于深度神经网络的情感语音合成方法。该方法应用文本分析获得语音对应的文本上下文相关标注,并采用WORLD声码器提取情感语音的声学特征;采用文本的上下文相关标注和语音的声学特征训练获得与说话人无关的深度神经网络平均音模型,用目标说话人的目标情感的训练语音和说话人自适应变换获得与目标情感的说话人相关的深度神经网络模型,利用该模型合成目标情感语音。主观评测表明,与传统的基于隐马尔科夫模型的方法比较,该方法合成的情感语音的主观评分更高。客观实验表明,合成的情感语音频谱更接近原始语音。所以,该方法能够提高合成情感语音的自然度和情感度。  相似文献   

4.
多种机器学习和深度学习的模型和算法应用于短时交通流量预测,但是,大多数模型尤其是深度学习模型对训练样本的数量要求较高。为此,提出了一种基于数据扩展的短时交通流量预测方法,该方法基于自编码神经网络分别结合长短时记忆神经网络(LSTM)和支持向量机回归(SVR)构建预测模型,该模型利用自编码神经网络扩展的数据分别训练长短时记忆神经网络和支持向量回归进行交通流量的预测,结果表明,所提出的预测模型具有较高的精度和较好的泛化能力。  相似文献   

5.
为了解决语音识别中由网络加深导致的低层特征消失、参数量大及网络训练困难的问题,基于Inception V3网络的非对称卷积思想,提出了一种改进的密集连接卷积神经网络(densely connected convolutional neural networks, DenseNet)模型。根据语音识别的长时相关性,通过密集连接块建立起不同层之间的连接关系,从而保存低层特征、加强特征传播;为了得到尺度更丰富的声学特征,将卷积核的范围进行扩大;利用非对称卷积思想分解卷积核,以减少参数量。实验结果表明,相较经典深度残差卷积神经网络模型和原始DenseNet模型,提出的模型在THCHS30数据集上的语音识别性能更好,在保证识别率的情况下,还减少了网络参数量,提高了模型训练效率。  相似文献   

6.
针对5G网络规划与优化存在的问题,提出一种融合系统仿真和深度神经网络模型的网络时延预测方法.基于射线追踪模型、高清地图、工程参数等构建时延仿真模型,利用时延仿真模型获取大量时延数据.基于无线通信理论提出三视图特征模型,此模型用于输入特征提取.通过深度神经网络学习时延数据特征,训练神经网络模型,利用神经网络模型预测网络时延.实验结果表明该方法具有可行性和有效性.  相似文献   

7.
音频频带扩展是根据接收的宽带信号在解码端人为地重建出丢失的高频成分,以提升音频听觉质量。该文基于耳蜗滤波器倒谱参数提出了一种盲目式音频频带扩展方法。该方法模拟外耳听觉系统,提取耳蜗滤波器倒谱系数来描述宽带音频频谱信息,并利用Gauss混合模型对高频谱包络进行估计。结合基于最近邻匹配的谱细节恢复方法,实现了宽带向超宽带音频的有效扩展。主客观测试表明,该方法的重建音频质量优于基于传统音频特征的扩展方法。  相似文献   

8.
针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率.  相似文献   

9.
基于传统的语音识别系统的缺点,提出了一套基于虚拟仪器和 BP 神经网络的语音识别系统设计方案。利用LABVIEW 软件和 PC 机声卡硬件相结合采集和提取语音数据特征,并把数据分成测试集和训练集,再调用 MATLAB Script 节点利用 BP 神经网络对测试集进行学习并对训练集进行识别。经过测试,该系统识别准确率高、成本低,具有一定的适用性。  相似文献   

10.
基于AAR模型和累积频带能量的特征提取方法   总被引:2,自引:0,他引:2  
提出了一种自适应自回归(AAR)模型参数和累积频带能量相结合的特征提取方法,该特征应用于基于运动想象脑.机接口(BCI)之中,实现左右手运动想象分类,改善BCI系统的性能.首先,对头皮EEG数据进行小波分解和重构,去除EEG中的噪声,得到不同频带的EEG数据.然后,提取EEG数据的AAR模型参数特征和不同频带的频带能量特征,提出了累积频带能量特征和AAR与累积频带能量相结合的特征提取方法,分别以AAR模型参数、频带能量、累积频带能量和AAR+累积频带能量为特征,利用线性判别分析(LDA)分类器对左右手运动想象任务进行特征分类.最后,对不同特征的分类结果进行比较,得出以AAR+累积频带能量作为特征在BCI系统中的优越性能.  相似文献   

11.
针对海量数据挖掘中三维模型特征识别准确率较低的问题, 提出一种改进的稀疏降噪自编码神经网络模型. 先基于改进的稀疏降噪自编码方法构建深度神经网络模型, 再利用无监督预训练方法及受限的拟牛顿计算方法对自编码神经网络进行训练, 最后采用softmax回归和得到的特征训练最终的分类器. 结果表明: 该方法对有噪声的三维模型特征信息具有较好的鲁棒性; 与栈式自编码神经网络和自学习神经网络相比, 该方法识别率较高.  相似文献   

12.
根据声道模型与AR模型的对应关系,提出一种可用于神经网络语音识别的新特征———语音信号的全局时频特征,从整体上描述LPC倒谱系数的变化规律.其特点是:(1)特征长度固定,为传统的静态神经网络应用于语音识别创造了良好条件;(2)与其他语音识别系统所用的神经网络相比,新特征极大地降低了神经网络的规模及训练时间;(3)基于新特征的系统的识别性能明显优于传统的HMM方法及GMDS算法.  相似文献   

13.
提出了一种用神经网络模型和信号子空间特征分解相结合进行语音增强的方法,该方法利用了神经网络并行处理、高速计算的能力和语音信号的短时平稳的特性.它既克服了传统的谱相减法中残留“音乐噪声”的缺陷,又可以实时、有效地增强语音,能够满足一些语音处理与识别系统的需要.  相似文献   

14.
提出了一种用于情感语音合成的基频转换方法.该方法使用定量目标逼近(q TA)特征作为语音音节层的基频描述,并用高斯双向联想贮存器(GBAM)实现中性合成语音音节层q TA参数向目标情感语音音节层q TA参数的转换.在模型训练阶段,首先基于中性语料库和统计参数语音合成方法构建中性语音合成系统;然后利用少量情感录音数据,将从情感语音文本对应的中性合成语音中提取的q TA参数作为源数据,将情感录音中提取的q TA参数作为目标数据,进行GBAM转换模型的训练.在情感语音合成阶段,利用训练得到的GABM模型,实现中性合成语音基频特征向目标情感的转换.实验结果表明,该方法在目标情感数据较少的情况下可以取得比最大似然线性回归(MLLR)模型自适应方法更好的情感表现力.  相似文献   

15.
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建.本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法.原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息.建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤....  相似文献   

16.
传统地形识别算法,主要建立在人工提取特征和训练分类器的前提上,其通用能力有限且准确度不高,或者需要大量的数据集训练基础,这种方法训练的网络模型参数较大且预测耗时较长,不利于移植到移动端。因此,运用迁移学习思想,提出了一种基于深度迁移网络的地形识别算法。采用轻量级卷积神经网络MobileNetV3,在爬虫获取和自建适量数据集基础上,对神经网络进行迁移学习。首先,采用图像分类数据集ImageNet上的预训练成果,根据预训练模型权重对MobileNetV3网络进行初始化,实现对模型大规模共享参数的迁移;然后,通过在自建数据集GXU-Terrain6上进行新的训练,微调模型参数,进而得到新的分类模型;最后,利用训练好的模型对地形类别进行预测,从而完成识别任务。提出算法在GXU-Terrain6测试集上取得了93.00%的平均预测准确率。实验结果表明,基于深度迁移的地形识别算法运用较少数据,可获得较高的识别准确率,网络实时性好,适合向移动端移植。  相似文献   

17.
范志鹏  李军  刘宇强  钮焱 《科学技术与工程》2020,20(29):12014-12020
随着各种新技术的出现,传统的恶意代码的识别和分类技术存在着检测率瓶颈、实时监测效率不高的问题,为了提高准确率,提出了一种基于图像纹理指纹特征与深度学习神经网络结合的分类方法。该方法首先将数据集中恶意代码的二进制文件建模为灰度图,采用改进的灰度共生矩阵提取出恶意代码中的指纹特征图像,并选择不同步长扩展样本量,然后将该指纹特征图像作为输入数据集并采用卷积神经网络模型中进行分类训练。结果表明,该方法可以有效地分类恶意代码,准确率可达96.2%,并在泛化测试中取得了较好的效果。  相似文献   

18.
光学乐谱识别是音乐信息检索中一项重要技术,音符识别是乐谱识别及其关键的部分.针对目前乐谱图像音符识别精度低、步骤冗杂等问题,设计了基于深度学习的端到端音符识别模型.该模型利用深度卷积神经网络,以整张乐谱图像为输入,直接输出音符的时值和音高.在数据预处理上,通过解析Music XML文件获得模型训练所需的乐谱图像和对应的标签数据,标签数据是由音符音高、音符时值和音符坐标组成的向量,因此模型通过训练来学习标签向量将音符识别任务转化为检测、分类任务.之后添加噪声、随机裁剪等数据增强方法来增加数据的多样性,使得训练出的模型更加鲁棒;在模型设计上,基于darknet53基础网络和特征融合技术,设计端到端的目标检测模型来识别音符.用深度神经网络darknet53提取乐谱图像特征图,让该特征图上的音符有足够大的感受野,之后将神经网络上层特征图和该特征图进行拼接,完成特征融合使得音符有更明显的特征纹理,从而让模型能够检测到音符这类小物体.该模型采用多任务学习,同时学习音高、时值的分类任务和音符坐标的回归任务,提高了模型的泛化能力.最后在Muse Score生成的测试集上对该模型进行测试,音符识别精度高,可以达到0.96的时值准确率和0.98的音高准确率.  相似文献   

19.
提出一种基于神经网络对物品检测系统设计的方案,分析了神经网络模型的特征以及物品检测系统的要求,从而设计出了由图像特征分析和神经网络分类组合构成的智能检测系统结构模型,并通过训练和测试证明了该设计方案的合理性.  相似文献   

20.
针对Attention过于灵活的对齐方式在复杂环境中适应性差、简单端到端模型对语言特征利用不充分的问题,研究了基于多任务损失附加语言模型的语音识别方法.通过分析语音信号特征,训练中选用包含更多信息的特征.以基于Attention的Conformer端到端模型为基础,采用CTC损失辅助纯Conformer (Attention)的多任务损失训练模型,得到Conformer-CTC语音识别模型.在Conformer-CTC模型基础上,通过分析对比部分语言模型的特点与效果,将Transformer语言模型通过重打分机制附加至上述模型的训练中,最终得到Conformer-CTC-Transformer语音识别模型.在AISHELL-1数据集上对上述模型进行了试验.结果表明:Conformer-CTC模型相对于纯Conformer (Attention)模型在测试集上的字错率(character error rate,CER)降低了0.49%,而Conformer-CTC-Transformer模型相对于Conformer-CTC模型在测试集上的CER又降低了0.79%.CTC损失可以改善Att...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号