共查询到20条相似文献,搜索用时 0 毫秒
1.
为在保障网络训练速度的基础上进一步提高语音增强性能,提出一种融合注意力(Atten-tion)机制的准循环神经网络(QRNN)语音增强方法.通过QRNN序列信息并行计算的特性保证网络的训练速度,将Attention机制重新赋予权重的含噪语音序列作为QRNN层的输入,使网络更加关注目标语音序列信息,以提高语音增强模型的性... 相似文献
2.
随着语音识别和自然语言处理技术的成熟,智能语音技术逐步落地到各行各业,但目前智能语音产品缺乏情感的交互,未实现真正的智能。为了提升智能语音产品的拟人性,学术界对语音情感识别的研究热度越来越高,但是多局限在使用传统特征工程以及通用深度学习模型上。在应用深度学习模型的基础上引入注意力机制对语音情感识别展开研究,选用语谱图作为输入特征,并对CNN输出的特征进行通道维度的注意力关注,分析注意力计算过程中不同池化方式对识别结果的影响,并引入残差,提升模型表现力,最终UA实现了2.83%的提升。 相似文献
3.
提出了一种新颖的语音情感识别结构,从声音文件中提取梅尔频率倒谱系数(Melscale frequency cepstral coefficients,MFCCs)、线性预测倒谱系数(linear predictive cepstral coefficients,LPCCs)、色度图、梅尔尺度频谱图、Tonnetz表示和频谱对比度特征,并将其作为一维卷积神经网络(convolutional neural network,CNN)的输入.构建由一维卷积层、Dropout层、批标准化层、权重池化层、全连接层和激活层组成的网络,并使用Ryerson情感说话/歌唱视听(Ryerson audio-visual database of emotional speech and song,RAVDESS)数据集、柏林语音数据集(Berlin emotional database,EMO-DB)、交互式情绪二元运动捕捉(interactive emotional dyadic motion capture,IEMOCAP)数据集这3个数据集的样本来识别情感.为提高分类精度,利用增量方法修改初始模型.为... 相似文献
4.
随着人们网络安全意识的提高,加密流量呈爆炸式增长,流量加密在保护用户隐私的同时,也为安全检测带来了新的挑战。针对传统基于机器学习的流量识别方法存在需要手动设计分类特征、分类准确率不高等问题,提出一种基于卷积神经网络与自注意力机制(Convolutional Neural Network and Self Attention, CSA)的加密流量分类方法,依据网络流量的层次结构特性,采用卷积神经网络提取数据包内字节流的空间特征、自注意力机制提取数据包之间的时序特征。在公开数据集ISCX VPN-NonVPN上的实验结果表明,CSA模型的分类准确率达到了95.0%,相较基准深度模型,准确率和F1值皆有明显的提升。 相似文献
5.
不同噪声在频谱上具有不同的特性,为了解决卷积神经网络对含有不同噪声的语音降噪的局限性,通过引入通道注意力机制作为卷积循环网络的中间层,将卷积层中不同功能的卷积核赋予不同的权重,使模型在训练时能够对输入数据更有针对性地去除噪声部分,从而达到更好的降噪效果。针对含有15种噪声的含噪语音分别应用循环神经网络、编解码卷积网络和卷积循环神经网络等三种模型进行降噪处理,结果表明引入注意力机制的模型相比于其他两种模型,在感知语音质量评价(perceptual evaluation of speech quality, PESQ)和短时客观可懂度(short time objective intelligibility, STOI)评分上都有所提高,且引入注意力机制的模型能够更好地保留语音的谐波信息。 相似文献
6.
语音情感识别在人机交互中有重要的作用。在语音情感识别领域中,通常使用迁移学习解决语音情感数据难获取的问题,但忽略了语音数据的时序信息和空间信息。考虑到AlexNet网络中的参数来自图像数据集,不能完全表现语音数据的空间信息,并且不包含时序信息,因此提出通过膨胀卷积网络提取语音频谱图的空间信息,添加双向长短期记忆神经网络提取时序信息,并进行时空特征融合;针对语音中含有大量与情感无关的特征,通过将对数梅尔频谱图的三个通道作为输入,减少情感无关因素的影响,并添加注意力机制,选取情感权重大的时域信号。用公开数据集实验证明了方法的有效性,在WAR和UAR上都有提升。 相似文献
7.
研究一种基于神经网络的端到端中文语音识别算法.算法将语音信息处理为频谱图,基于频谱图,设计和实现一种基于卷积神经网络和循环神经网络的深度学习模型结构用于中文语音识别.模型以汉字作为标签样本,运用训练算法和序列损失函数进行模型迭代训练最终模型;采用开源数据集,通过实验验证网络结构对识别效果的影响,同时对比传统的语音识别算... 相似文献
8.
人脸表情识别一直是计算机视觉领域的一个难题.近年来,随着深度学习的飞速发展,一些基于卷积神经网络的方法大大提高了人脸表情识别的准确率,但未能充分利用人脸图像中的信息,这是由于对于面部表情识别有意义的特征主要集中在一些关键位置,例如眼睛、鼻子和嘴巴等区域,因此在特征提取时增加这些关键位置的权重可以改善表情识别的效果.为此... 相似文献
9.
基于一种听觉模型的特征提取及语音识别 总被引:4,自引:0,他引:4
张焱 《南京理工大学学报(自然科学版)》1998,22(2):113-116
该文分析了人耳耳蜗及中枢听觉神经对声信号处理的机理,主要包括耳蜗对声信号的频率分析、柯蒂氏器官毛细胞的从振动机械能到电化学能的转换,听神侧抑制神经网络和增益调整四个层次,建立各个层次上听觉的数学模型。 相似文献
10.
基于数学模型或统计模型的传统航迹预测方法存在一定的局限性,无法满足现代航空领域对于高效、准确、实时的航迹预测需求。针对此问题,提出基于注意力机制的CNN-LSTM模型的实时航迹预测方法。该模型首先使用一维卷积对航迹数据的多维度特征进行提取,从而减少输入特征的数量。其次利用获取的多维度时序数据作为LSTM的输入,通过LSTM提取上下文的信息。最后使用注意力机制为LSTM中不同时序节点的输出赋予权重,达到聚焦关键航迹信息的作用。经过实验验证:本文的模型与LSTM模型和CNN-LSTM模型相比,预测出的路径更接近真实航迹;文中的模型比LSTM模型的平均预测误差降低了29.7%,比CNN-LSTM模型降低了25.4%。综上所述,文中方法可以显著提高航迹预测的精度。 相似文献
11.
提出了一种基于双权值神经网络的非特定人连续语音识别的新算法.这种算法可以不经过端点检测和分割,构建连续语音中各不同音节的特征空间覆盖区,可以避免因分割错误而带来的错误识别.通过实验得到了较为满意的识别结果. 相似文献
12.
基于神经网络的语音识别研究 总被引:3,自引:0,他引:3
由于具有良好的抽象分类特性,神经网络现已应用于语音识别系统的研究和开发,并成为解决识别相关问题的有效工具.为解决一般语音识别系统准确率较低的问题,本文分别给出了由循环神经网络(RNN)和多层感知器(MLP)组成识别模块的两种语音识别系统,并对二者识别的准确性进行了比较.介绍了特征提取模块的主要工作步骤并讨论了组成识别模块的上述两种神经网络结构.其中,特征提取模块利用线性预测编码(LPC)倒谱编码器,把输入语音翻译成LPC倒谱空间中的曲线;而识别模块完成对某个特征空间曲线之间的联系和单词的识别.实验结果表明,MLP方法准确率高于RNN方法,而RNN方法准确率可达85%. 相似文献
13.
一种基于听觉模型的抗噪语音识别特征提取方法 总被引:5,自引:2,他引:5
提出了一种新的语音识别特征提取方法。该方法是建立在听觉模型的基础上,通过计算语音的上升过零率作为频率信息并通过非线性幅度加权相结合来获取语音特征。仿真实现了中小词汇量、孤立词的语音识别,得到了较好的实验结果,证明了此方法具有较强的抗噪声性能。 相似文献
14.
为解决单一的卷积神经网络(CNN)缺乏利用时序信息与单一循环神经网络(RNN)对局部信息把握不全问题,提出了融合注意力机制与时空网络的深度学习模型(CLA-net)的人体行为识别方法。首先,通过CNN的强学习能力提取局部特征;其次,利用长短时记忆网络(LSTM)提取时序信息;再次,运用注意力机制获取并优化最重要的特征;最后使用softmax分类器对识别结果进行分类。仿真实验结果表明,CLA-net模型在UCI HAR和DaLiAc数据集上的准确率分别达到95.35%、99.43%,F1值分别达到95.35%、99.43%,均优于对比实验模型,有效提高了识别精度。 相似文献
15.
16.
为了获取老年人的精神状态从而更全面地了解老年人的身体状况,提出了基于多通道卷积注意力机制的精神状态识别方法。首先,对多种生理信号进行数据预处理,将不同采样频率的传感器数据进行重采样操作,保证数据长度一致。其次,根据输入信号的结构特征以及信号的长度设计对应卷积模块,使用4个不同大小的一维卷积核同时对信号进行特征提取,以增强模型的特征提取能力。再次,将卷积结果进行拼接,对拼接结果进行最大池化操作增加模型的感受野,在提取局部特征信号的同时实现信号间的长距离特征表达。最后,实验结果表明,总体分类准确率为99.75%,所提方法优于对比方法。 相似文献
17.
环境和荷载协同作用导致的路面病害对道路使用性能和安全性能的影响日益突出。现有图像智能识别算法难以实现处理速度和计算量的平衡。针对道路病害快速准确实时识别的需求,对石家庄损伤较为严重的路面进行实地拍照,结合已有图片,采用数据增强技术构建了市政道路病害数据集,并且提出了一种基于MobileNetV3网络的轻量化道路病害识别网络模型GEM-MobileNetV3。该模型首先使用Ghost模块代替MobileNetV3网络基本单元中的1×1卷积;然后结合改进后的高效通道注意力机制ECA模块提取病害目标的重要特征;最后将网络浅层的ReLU激活函数替换为泛化能力更强的Mish激活函数,提高模型的整体性能。通过消融实验与对比实验,验证了新模型的有效性。实验结果表明,新模型准确率达到96.33%,其参数量与计算量较MobileNetV3模型分别降低了37.9%和36%。提出的新模型在保持较高识别准确率的同时有效降低了模型复杂度,为在低成本计算平台上实现高准确率实时识别提供了新途径。 相似文献
18.
把小波理论应用于抗噪语音识别特征提取,提出了基于高斯小波滤波器的语音识别特征提取方法,通过对人耳听觉特性的研究,按照人耳临界带宽设计了一组高斯小波带通滤波器。详细讨论了高斯小波滤波器的尺度参数选择方法。使用RBF识别网络,仿真实现了使用新特征与原特征的识别结果,证明了新特征具有较高的识别率和优良的抗噪性能。 相似文献
19.
视频行为识别通常应用短区间动作特征和长区间视频聚集特征进行时序建模.而这种时序建模方式在特征提取过程中,将不同时序区间的动作特征同等看待,忽略了关键通道信息和重要动作内容,不能达到理想的行为识别效果.注意力机制能够重点关注目标区间,在提取时间激励与聚集行为特征基础上融入通道-空间注意力模块.该模型分别通过通道和空间模块改变时序动作的特征分布,通道注意力关注关键通道信息是“哪些”,空间注意力机制关注重要视频内容在“哪里”,突出关键通道信息和重要内容等特征,提高了行为识别的识别率.同时在数据集Something-Something 1,UCF101和HMDB51对模型进行实验,融入通道-空间注意力模块的时间激励与聚集行为识别模型能够有效提高行为识别率. 相似文献
20.
针对语音情感识别过程中特征不充分的问题,提出了约束式双通道模型,从全局和局部两方面充分挖掘特征所包含的情感信息,从而提高情感识别率.通道1是针对语音特征的全局信息,通过改进门控循环单元,构建了BAGRU(bidirectional attention gate recurrent unit)模型,提高了语音特征之间的相关性;通道2是针对语音特征的局部信息,卷积神经网络与对抗训练结合,避免了局部信息相互干扰.通过双通道融合模型,根据通道特征重要程度生成不同权重,同时引入正交约束,解决了融合时产生特征冗余的问题.研究结果表明,在IEMOCAP和EMO-DB情感语料库上分别达到了62.83%和82.19%的识别精度,表现出了良好性能. 相似文献