期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘想德王芸秋蒋勤张毅何翔鹏《重庆邮电大学学报(自然科学版)》2022,34(4):604-611

为了解决语音识别中由网络加深导致的低层特征消失、参数量大及网络训练困难的问题,基于Inception V3网络的非对称卷积思想,提出了一种改进的密集连接卷积神经网络(densely connected convolutional neural networks, DenseNet)模型。根据语音识别的长时相关性,通过密集连接块建立起不同层之间的连接关系,从而保存低层特征、加强特征传播;为了得到尺度更丰富的声学特征,将卷积核的范围进行扩大;利用非对称卷积思想分解卷积核,以减少参数量。实验结果表明,相较经典深度残差卷积神经网络模型和原始DenseNet模型,提出的模型在THCHS30数据集上的语音识别性能更好,在保证识别率的情况下,还减少了网络参数量,提高了模型训练效率。相似文献

2.

融合注意力机制的QRNN语音增强方法

娄迎曦袁文浩时云龙胡少东《山东理工大学学报：自然科学版》2022,36(3):7-12

为在保障网络训练速度的基础上进一步提高语音增强性能,提出一种融合注意力(Atten-tion)机制的准循环神经网络(QRNN)语音增强方法.通过QRNN序列信息并行计算的特性保证网络的训练速度,将Attention机制重新赋予权重的含噪语音序列作为QRNN层的输入,使网络更加关注目标语音序列信息,以提高语音增强模型的性... 相似文献

3.

基于深度学习的听觉倒谱系数语音增强算法

李如玮孙晓月刘亚楠李涛《华中科技大学学报(自然科学版)》2019,47(9):78-83

针对现有语音增强算法在低信噪比(SNR)非平稳噪声环境下的表现并不理想这一问题,提出了一种基于深度学习的语音增强算法.首先,构建了一个深度神经网络(DNN),然后从四个不同分辨率的耳蜗中提取了多分辨率听觉倒谱系数(MRACC)作为神经网络的输入,该系数既关注了细节的高分辨率特征,又把握了全局性的低分辨率特征;其次,跟踪噪声变化构建了一个自适应掩蔽阈值(AM)作为神经网络的训练目标,该阈值能够依据噪声调节理想二值掩蔽(IBM)和理想软掩蔽(IRM)的权重;最后,将估计的自适应掩蔽阈值用于对含噪语音进行增强.实验结果表明:相较于对比算法,该算法不仅可以进一步提高语音质量和可懂度,而且能够抑制更多的噪声. 相似文献

4.

混合蛙跳算法神经网络及其在语音情感识别中的应用 总被引：3，自引：1，他引：2

余华黄程韦张潇丹金赟赵力《南京理工大学学报(自然科学版)》2011,35(5)

该文将混合蛙跳算法(SELA)优化方法应用于人工神经网络训练中,对6种语音情感进行了语音情感特征的分析与识别。研究了谐波噪声比特征随情感类别的变化特性。利用混合蛙跳算法训练随机产生的初始数据优化神经网络的连接权值,快速实现了网络收敛。实验比较了BP神经网络、RBF神经网络和SFLA神经网络的语音情感识别性能。结果表明,SFLA神经网络的平均识别率分别高于BP神经网络和RBF神经网络4.7%和4.3%。相似文献

5.

基于多维度注意力机制和复数Conformer的单通道语音增强方法

高盛祥莫尚斌余正涛董凌王文君《重庆邮电大学学报(自然科学版)》2024,(2):393-403

为提高被噪声干扰的语音的可理解性和语音质量,针对用于语音增强的深度复数网络对语音复数谱中关键声学特征提取不充分、关联信息建模不合理的问题,提出了基于多维度注意力机制和复数Conformer的单通道语音增强方法(SE-MDACC)。在复数U-Net架构下引入复数Conformer,对语音幅度和相位的相关性进行建模;利用多维度注意力机制,构造更加丰富的特征来增强卷积层的表示能力;在残差连接中加入注意力门控机制强化重构语音的细节信息。实验结果显示,相比于深度复数卷积递归网络,SE-MDACC的客观评价指标语音质量感知评估和短时客观可懂度分别提升15.299％、1.462％,表明SE-MDACC可充分提取语音声学特征并对幅度和相位相关性进行合理建模,有效提升语音质量和可理解性。相似文献

6.

可变时长的短时广播语音多语种识别

王瑶龙华邵玉斌杜庆治《云南大学学报(自然科学版)》2022,(3):490-496

针对短时语音时长过短以及训练语音和测试语音时长不等,导致语种识别性能大幅度下降的问题,提出了一种可变时长的短时广播语音多语种识别模型（Variable Duration-Language Identification, VD-LID）.首先,对不同时长的语音进行时长规整;然后,对规整后的短时语音进行特征提取,提取其对数功率谱包络图作为语种特征;最后,将语种特征输入到残差神经网络中进行分类.实验结果表明,相比于传统特征输入,对数功率谱包络图特征将短时语音的语种识别准确率提高到了82.4%;相比于没有引入时长规整层的语种识别模型,VD-LID在测试语音时长为5 s和10 s的实验中,语种识别准确率分别提升了27.9%和37.7%. 相似文献

7.

基于卷积门控循环神经网络的语音增强方法

袁文浩娄迎曦夏斌孙文珠《华中科技大学学报(自然科学版)》2019,47(4):13-18

为了进一步提高基于深度神经网络的语音增强方法的性能,针对单独使用卷积神经网络难以对含噪语音中的长期依赖关系进行建模的问题,提出一种基于卷积门控循环神经网络的语音增强方法.该方法首先采用卷积神经网络提取含噪语音中的局部特征,然后采用门控循环神经网络将含噪语音中不同时间段的局部特征进行关联,通过结合两种网络的不同特性,在语音增强中更好地利用含噪语音中的上下文信息.实验结果表明:该方法能够有效提高未知噪声条件下的语音增强性能,增强后的语音具有更好的语音质量和可懂度. 相似文献

8.

基于噪声特性的语音增强算法

孟欣马建芬张雪英曹棣《科学技术与工程》2016,16(33)

针对不同的语音增强算法对不同噪声的增强效果不同,提出了一种基于深度神经网络的噪声分类的语音增强算法。首先,使用深度神经网络(DNN)算法对噪声进行分类。分类算法包括训练阶段和分类阶段。在训练阶段,采用babble,car,street,train四中噪声对DNN进行训练;在分类阶段,将提取的噪声输入训练好的DNN中,得到分类结果,并对分类性能进行评估。其次,采用PESQ,LSD及SNR等语音评估方法,对不同的含噪语音在不同信噪比、不同语音增强算法下进行评估。语音增强算法包括子空间法、维纳滤波算法、谱减法及对数最小均方误差法(log MMSE),噪声包括babble,car,street,train,信噪比为-5db,0db和5db,并对通过评估得到的值采用平均值法得到噪声和语音增强算法的最佳匹配;最后,针对不同分类噪声,采用不同的增强算法进行语音增强,并对4种噪声之外的噪声根据本文算法选取相应的语音增强算法。相似文献

9.

基于注意力机制语谱图特征提取的语音识别

姜囡庞永恒高爽《吉林大学学报(理学版)》2024,(2):320-330

针对连接时序分类模型需具有输出独立性的假设,对语言模型的依赖性强且训练周期长的问题,提出一种基于连接时序分类模型的语音识别方法.首先,基于传统声学模型的框架,利用先验知识训练基于注意力机制的语谱图特征提取网络,有效提高了语音特征的区分性和鲁棒性;其次,将语谱图特征提取网络拼接在连接时序分类模型的前端,并减少模型中循环神经网络层数进行重新训练.测试分析结果表明,该改进模型缩短了训练时间,有效提升了语音识别准确率. 相似文献

10.

一种基于径向基函数神经网络的语音降噪方法

吕伟军何为《北京工商大学学报(自然科学版)》2008,26(4)

采用径向基函数神经网络在时域上对含噪语音信号进行降噪处理.针对语音信号的短时平稳性以及噪声的随机性,对语音信号进行分帧预处理;用分帧后的纯净语音信号作为径向基函数网络的教师信号,并利用Matlab神经网络工具箱设计和训练网络.实验结果表明,径向基函数网络作为语音信号滤波器,可有效地抑制语音信号中的白噪声,具有良好的降噪性能. 相似文献

11.

基于深度残差反向传播神经网络的钢筋腐蚀检测

林旭梅胡川朱广辉陈一戈苗芳荣《科学技术与工程》2021,21(33):14351-14355

针对小样本数据下浅层神经网络模型拟合能力不足,而加深网络层数出现网络性能退化问题,提出一种双跳跃深度残差BP神经网络模型,每个残差块堆叠三个同维度网络层,在网络的一、二层和一、三层之间加入双跳跃连接,增强浅层低非线性度特征信息向深层网络的直接传递和重复利用,且在反向传播过程中避免了梯度消失,提升模型分类准确率。同时引入一阶矩估计梯度指数加权平均因子对Adam算法中影响学习率的二阶矩估计梯度进行调整,优化网络的收敛能力。将改进后的算法模型用于钢筋腐蚀样本数据训练及测试,仿真结果表明,改进后的算法模型具有更好的分类性能。相似文献

12.

一种新的对数能量谱熵语音端点检测方法 总被引：1，自引：0，他引：1

赵欢王纲金赵丽霞《湖南大学学报(自然科学版)》2010,37(7):72-77

将一种新的对数能量(LE)特征和谱熵(SE)特征相结合,提出一种新的对数能量谱熵(LESE)特征,采用模糊C均值聚类算法和贝叶斯信息准则算法进行LESE特征门限估计,并使用双门限法进行语音端点检测.在TIMIT连续语音库上的实验结果表明,相比于能量谱熵(EE)法和对数能量(LE)法,在噪声环境下LESE法具有更好的检测性能,表现出更好的稳健性.当信噪比为-5 dB时,LESE法的检测错误率仅为18.02%,在信噪比为0～10 dB时,其检测错误率要明显低于EE法和LE法. 相似文献

13.

一种改进的基于LP倒谱特征的孤立词语音识别方法

侯雪梅张雪英赵高峰《太原理工大学学报》2006,37(5):508-510

阐述了Mel谱失真测度的概念,指出用Mel频率尺度可较充分地反映人耳对频率及幅度的非线性感知特性。在此基础上,针对孤立词语音识别,对常规LP倒谱特征提取方法进行改进,即将LP倒谱按符合人耳听觉特性的Mel尺度进行非线性变化,得到LP Mel倒谱系数(LPM-CC)作为特征参数。识别网络使用RBF神经网络,进行了孤立词语音识别。实验结果表明此种方法抗噪性能好,识别效率高。相似文献

14.

基于短时对数谱的MMSE语音增强算法研究

陈红梅陈健《重庆邮电大学学报(自然科学版)》2004,16(3):65-68

研究了单话筒采集条件下基于语音短时对数谱的最小均方误差(MMSE-LSA)估计的语音增强算法,给出了其算法分析的基本流程图.由于语音是时变的,因此,假设语音频谱分布为高斯分布,在此基础上讨论了MMSE-LSA算法的先验信噪比ξk的2种估计方法--最大似然估计方法和直接判决估计方法.试验证明此方法的语音增强效果较好,尤其在较低信噪比时效果更明显. 相似文献

15.

基于矢量泰勒级数的鲁棒语音识别

吕勇吴镇扬《天津大学学报(自然科学与工程技术版)》2011,44(3)

矢量泰勒级数是一种有效的抗噪声鲁棒语音识别算法.然而在对数谱域,美尔滤波器组的不同通道之间有较强的相关性,因而难以从含噪语音中准确估计噪声的方差.提出了一种基于矢量泰勒级数的倒谱域特征补偿算法.该算法在倒谱域,用一个高斯混合模型描述语音倒谱特征的分布,通过矢量泰勒级数从含噪语音中估计噪声的均值和方差.实验结果表明,此算法能明显提高语音识别系统的性能,优于基于矢量泰勒级数的对数谱域特征补偿算法. 相似文献

16.

基于非负矩阵分解和长短时记忆网络的单通道语音分离

崔建峰邓泽平申飞史文武《科学技术与工程》2019,19(12)

为了解决语音分离中非负矩阵分解(non-negative matrix factorization,NMF)、深度神经网络(deep neural network,DNN)等算法没有考虑语音时序相关性的问题。结合NMF和长短时记忆网络(long short-term memory,LSTM)算法提出NMFLSTM单通道语音分离算法:将语音信号的幅度谱作为模型的输入特征,通过训练NMF和LSTM模型获得目标语音的基矩阵和系数矩阵,并对其结果进行语音重构最终实现语音分离。实验结果表明:相比于未考虑语音时间连续性的算法,使用NMFLSTM算法分离语音的客观语音质量评估值(perceptual evaluation of speech quality,PESQ)有明显提升,其最大值超过3. 1,获得良好的分离效果。相似文献

17.

基于Sparse K-SVD学习字典的语音增强方法

黄玲李琳王薇易才钦郭东辉《厦门大学学报(自然科学版)》2014,(1)

提出一种基于Sparse K-SVD学习字典的语音增强方法,采用Sparse K-SVD算法自适应地训练一个可稀疏表示的冗余字典,在该冗余字典上采用正交匹配追踪(OMP)算法对带噪语音信号进行稀疏分解,利用稀疏系数矩阵重构纯净语音,实现语音增强.使用NOIZEUS语音库进行了一系列的语音增强实验,主客观评测数据表明,基于稀疏表示的语音增强方法(分别使用Sparse K-SVD和K-SVD训练字典)相对于传统语音增强方法(小阈值波法、谱减法、改进谱减法)可进一步改善语音质量;对字典训练时间进行统计,发现Sparse K-SVD算法训练字典消耗的时间为K-SVD算法训练时间的1/6~1/10,大幅度提高了计算效率. 相似文献

18.

基于增量方法的卷积语音情感识别网络

下载免费PDF全文

朱永华冯天宇张美贤张文俊《上海大学学报(自然科学版)》2023,29(1):24-40

提出了一种新颖的语音情感识别结构,从声音文件中提取梅尔频率倒谱系数(Melscale frequency cepstral coefficients,MFCCs)、线性预测倒谱系数(linear predictive cepstral coefficients,LPCCs)、色度图、梅尔尺度频谱图、Tonnetz表示和频谱对比度特征,并将其作为一维卷积神经网络(convolutional neural network,CNN)的输入.构建由一维卷积层、Dropout层、批标准化层、权重池化层、全连接层和激活层组成的网络,并使用Ryerson情感说话/歌唱视听(Ryerson audio-visual database of emotional speech and song,RAVDESS)数据集、柏林语音数据集(Berlin emotional database,EMO-DB)、交互式情绪二元运动捕捉(interactive emotional dyadic motion capture,IEMOCAP)数据集这3个数据集的样本来识别情感.为提高分类精度,利用增量方法修改初始模型.为... 相似文献

19.

基于改进CNN-GRU网络的多源传感器故障诊断方法

马立玲郭建汪首坤王军政《北京理工大学学报》2021,41(12):1245-1252

提出一种复杂系统内多源传感器的故障诊断方法.利用多源传感器数据之间的相关性,使用卷积神经网络提取不同传感器之间的联系和特征.在卷积网络中,设计了传感器数据标定模块使得网络更关注学习与故障信号相关的传感器数据.利用循环网络对传感器自身的时序特征建模,引入跳跃连接和辅助损失函数降低网络的训练难度.最后综合时空特征,一次计算得到故障分类结果和故障参数估计.仿真结果表明,改进后的CNN-GRU网络能够实时准确地诊断传感器的固定偏差故障和漂移偏差故障,传感器数据标定模块和跳跃连接的引入有效地提高了诊断算法的准确率和精度. 相似文献

20.

一种时间规整算法在神经网络语音识别中的应用 总被引：6，自引：0，他引：6

史笑兴顾明亮王太君何振亚《东南大学学报(自然科学版)》1999,29(5):47-51

提出一种新的网络结构,这种网络能够很好地解决神经网络语音识别中的时间规整问题。该网络从输入语音信号的特征矢量序列中提取一组固定数目的特征矢量,然后将这组特征矢量馈入神经网络分类器进行识别。和其他的神经网络语音识别方法相比较,用这种网络进行前端处理,可以缩短后端神经网络分类器的训练和识别时间,简化分类器的网络结构并保持较高的识别率。相似文献