首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
不同噪声在频谱上具有不同的特性,为了解决卷积神经网络对含有不同噪声的语音降噪的局限性,通过引入通道注意力机制作为卷积循环网络的中间层,将卷积层中不同功能的卷积核赋予不同的权重,使模型在训练时能够对输入数据更有针对性地去除噪声部分,从而达到更好的降噪效果。针对含有15种噪声的含噪语音分别应用循环神经网络、编解码卷积网络和卷积循环神经网络等三种模型进行降噪处理,结果表明引入注意力机制的模型相比于其他两种模型,在感知语音质量评价(perceptual evaluation of speech quality, PESQ)和短时客观可懂度(short time objective intelligibility, STOI)评分上都有所提高,且引入注意力机制的模型能够更好地保留语音的谐波信息。  相似文献   

2.
CNN网络深度的增加,导致计算成本急剧提升,且深层网络不能充分利用浅层特征.针对这个问题,提出了注意力机制引导下的特征增强网络(AGFENet),主要包括扩展卷积块(DVB)、特征增强块(FEB)和注意块(AB).DVB采用扩张卷积来扩大卷积核的感受野,有效降低网络深度,权衡性能和效率.FEB使浅层特征信息更多地流向深...  相似文献   

3.
为解决传统3D卷积中难以提取时空信息的缺点,提出一种适用于3D卷积网络的多重注意力机制模块.该模块是由通道结合时间子模块和空间子模块组成的多维度特征调整模块.在通道结合时间模块中,通过调整池化层和卷积层的顺序,保留更多的有效通道信息和时间信息;在空间模块中,压缩冗余时间信息以减少计算量.该模块的整体计算量较少,可嵌入到各3D卷积网络中.为验证多重注意力机制模块的性能,基于3D ResNet网络设计部署了该多重注意力机制模块,并在UCF-101和HMDB-51两个行为识别数据集上分别进行训练.结果表明,改进后的3D ResNet在UCF-101上可提升1.50%的精度,在HMDB-51可提升1.24%的精度,而参数量只增加0.24%.  相似文献   

4.
针对包含细微差异动作的视频数据集,提出了一种用于分辨细粒度差异动作的深度神经网络.该网络结构由一个三维卷积(C3D)网络的轻量化变体和一个基于注意力机制的长短时记忆网络组成,优化了三维卷积网络的深度和注意力机制的权重惩罚项.实验结果表明:该网络可以有效地关注视频中的重要信息,在平均准确率和检测准确率上均有所提升.  相似文献   

5.
针对包含细微差异动作的视频数据集,提出了一种用于分辨细粒度差异动作的深度神经网络.该网络结构由一个三维卷积(C3D)网络的轻量化变体和一个基于注意力机制的长短时记忆网络组成,优化了三维卷积网络的深度和注意力机制的权重惩罚项.实验结果表明:该网络可以有效地关注视频中的重要信息,在平均准确率和检测准确率上均有所提升.  相似文献   

6.
为了进一步提高基于深度神经网络的语音增强方法的性能,针对单独使用卷积神经网络难以对含噪语音中的长期依赖关系进行建模的问题,提出一种基于卷积门控循环神经网络的语音增强方法.该方法首先采用卷积神经网络提取含噪语音中的局部特征,然后采用门控循环神经网络将含噪语音中不同时间段的局部特征进行关联,通过结合两种网络的不同特性,在语音增强中更好地利用含噪语音中的上下文信息.实验结果表明:该方法能够有效提高未知噪声条件下的语音增强性能,增强后的语音具有更好的语音质量和可懂度.  相似文献   

7.
针对现有的交通流量预测模型缺乏对交通数据动态时空相关性建模能力的问题,提出一种新的基于深度学习的动态时空图卷积网络(DSTGCN)模型,该模型无需给出道路网络信息,从交通数据中即可建模时空相关性.动态时空图卷积层包含2个主要部分:(1)动态邻接矩阵生成模块:使用时间自相关机制与空间注意力机制捕捉交通数据中的动态时空相关性;(2)时空图卷积:使用图卷积和标准二维卷积对信息进行高效聚合.DSTGCN通过堆叠动态时空图卷积层,能够捕捉不同时间级别的时空依赖关系.文章提出的方法在美国加利福尼亚州高速公路流量公开数据集上进行了实验,结果表明:所提出的DSTGCN模型在各项评价指标中均优于现有的基准方法.在PeMSD04数据集上,与当前较新的GeoMAN和ASTGCN模型相比,MAE分别降低了4.00和2.16,验证了所提模型在交通流预测中的有效性.  相似文献   

8.
语音在传输过程中受到来自周围环境、传输媒介等的干扰是不可避免的,这些干扰会严重影响语音接收时的质量,导致收到的语音信号不再是原始的纯净语音信号,而是带有各种干扰噪声的语音信号,这不仅影响语音的收听质量,也给后续的语音处理带来了一定的影响.因此对语音进行增强不可或缺.大部分传统的语音增强算法仅仅只通过改变语音的幅度,再叠加上原始的语音相位或者仅调整语音的相位再和未改变的幅度叠加来实现语音信号重建从而增强语音.本文提出了一个通过既改变语音信号的幅度又改变其相位的语音增强算法.通过使用客观语音质量测评(PESQ)和语谱图对用不同方法增强后的语音进行比较,验证了用本文方法得到的增强语音质量更佳.  相似文献   

9.
类别文本生成旨在让机器生成人类可理解的文本,并且赋予生成文本特定的类别属性。现有工作主要采用基于生成对抗网络的文本生成框架,往往直接采用卷积神经网络进行文本特征提取,缺乏对文本全局语义的关注;此外,简单地在生成网络中引入注意力无法有效消除解码过程中的噪声。针对上述问题,本文提出一种将文本全局特征与局部特征联合建模的方法,通过将长短时记忆网络提取的全局语义信息与卷积神经网络提取的局部语义信息进行融合,增强生成过程中对文本全局语义信息的关注,并且引入双重注意力,进一步过滤掉序列生成中的无关信息。与基准模型相比,本文提出的方法分别在2个公开的真实数据集(Movie Review和Amazon Review)上取得了至少0.01和0.004的BLEU值的提升,表明了本文方法的有效性。  相似文献   

10.
由于背景噪声、混响以及人声干扰等因素,远场语音识别任务一直充满挑战性。该文针对远场语音识别任务,提出基于注意力机制和多任务学习框架的长短时记忆递归神经网络(long short-term memory,LSTM)声学模型。模型中嵌入的注意力机制使其自动学习调整对扩展上下文特征输入的关注度,显著提升了模型对远场语音的建模能力。为进一步提高模型的鲁棒性,引入多任务学习框架,使其联合预测声学状态和干净特征。AMI数据集上的实验结果表明:与基线模型相比,引入注意力机制和多任务学习框架的LSTM模型获得了1.5%的绝对词错误率下降。  相似文献   

11.
为了解决语音识别中由网络加深导致的低层特征消失、参数量大及网络训练困难的问题,基于Inception V3网络的非对称卷积思想,提出了一种改进的密集连接卷积神经网络(densely connected convolutional neural networks, DenseNet)模型。根据语音识别的长时相关性,通过密集连接块建立起不同层之间的连接关系,从而保存低层特征、加强特征传播;为了得到尺度更丰富的声学特征,将卷积核的范围进行扩大;利用非对称卷积思想分解卷积核,以减少参数量。实验结果表明,相较经典深度残差卷积神经网络模型和原始DenseNet模型,提出的模型在THCHS30数据集上的语音识别性能更好,在保证识别率的情况下,还减少了网络参数量,提高了模型训练效率。  相似文献   

12.
复杂电能质量扰动的智能分类对于智能电网发展具有重要意义。扰动特征的提取与定位、模式识别与分类是电能质量扰动分类方法研究的难点。本文采用深度学习算法,将具有关注全局信息的Transformer与善于提取局部特征的卷积神经网络相融合,提出了一种基于卷积神经网络与Transformer的电能质量扰动分类方法,即CTranCBA。这种双深度学习模型分类方法主要是通过一维卷积神经网络提取电能质量扰动信号特征,利用Transformer自注意力机制引导模型关注序列中不同位置间的依赖关系,实现对扰动信号局部特征与全局特征的互补,克服了因感受野的限制而带来的识别不清、分类不准等问题。本文使用了23种不同电能质量扰动信号,将CTranCBA与Deep-CNN、CNN-LSTM、CNN-CBAM方法进行比较,结果表明该方法在分类准确率和抗噪性方面表现优异,可为电能质量扰动智能分类提供一种新的方法。  相似文献   

13.
骨导语音具有天然的抗环境噪声能力,然而,受骨导麦克风佩戴位置和方式的影响,骨导语音在采集过程中常混入骨导麦克风与皮肤或衣服之间的摩擦声,导致现有基于深度学习的骨导语音增强方法鲁棒性不高、适应性不强。为提高骨导语音增强的鲁棒性,提出一种融合数据预滤波和频谱展宽的骨导语音增强方法。该方法首先通过低通滤波对骨导语音数据进行预处理以去除高频噪声,然后对预滤波后的骨导语音进行时频变换,并分别基于U Net和CRNN两种深度网络进行频谱展宽,最后通过时频逆变换重构出全频带语音。仿真结果表明,与现有深度网络增强方法相比,所提方法可以取得更好的PESQ和STOI客观评价指标,主观听感具有更好的清晰度,且对不同说话人具有更好的适应性。  相似文献   

14.
隐式情感分析是情感计算的重要组成部分,尤其是基于深度学习的情感分析近年来成为了研究热点.本文利用卷积神经网络对文本进行特征提取,结合长短期记忆网络(LSTM)结构提取上下文信息,并且在网络中加入注意力机制,构建一种新型混合神经网络模型,实现对文本隐式情感的分析.混合神经网络模型分别从单词级和句子级的层次结构中提取更有意义的句子语义和结构等隐藏特征,通过注意力机制关注情绪贡献率较大的特征.该模型在公开的隐式情感数据集上分类准确率达到了77%.隐式情感分析的研究可以更全面地提高文本情感分析效果,进一步推动文本情感分析在知识嵌入、文本表示学习、用户建模和自然语言等领域的应用.  相似文献   

15.
复杂场景语义分割任务是对场景图像逐像素进行分类并标记.图像中目标种类多,尺度多样的特点给分割任务增加了难度,提出了特征增强U形卷积神经网络(feature enhanced U shape networks,FEUNet)是一种改进的编码器加解码器的结构,编码阶段引入局部特征增强模块(local feature enhanced,LFE)提取局部感知特征来改善非显著目标的分割效果;考虑到神经网络深层和浅层之间特征表达的差异,在解码阶段利用全局池化方法(global pooling)设计全局特征增强模块(global feature enhanced,GFE),实现选择性地从深层特征图提取上下文信息作为对浅层特征图的指导,改善深层和浅层特征图的融合,保证同类像素预测的一致性.采用CamVid和Cityscapes数据集进行试验,模型mIOU测评值分别达到64.5%和73.2%,对比其他主流语义分割算法,该方法在分割性能和模型体积上具有一定竞争力.  相似文献   

16.
在威胁情报包含的信息中,与网络攻击相关的战术、技术、程序(TTPs)是最能刻画组织行为的关键信息。但是,TTPs信息抽象层次高,并且通常存在于语法结构不规则的网络威胁情报文本中。这导致传统的人工分析方法以及基于特征工程的机器学习方法难以快速有效地从中分类出TTPs。使用单一的深度学习特征提取器则因无法提取文本语意中完整的邻域特征和序列特征,导致技战术分类精度低。 针对上述问题,本文提出一种基于注意力机制和特征融合的深度学习模型:ACRCNN,用于网络威胁情报中的战术与技术的分类。该模型通过卷积与循环神经网络同时提取网络威胁情报文本中的邻域与序列信息,再由卷积层与池化层进行深层次的特征抽取与降维,完成特征融合。然后,通过注意力层完成特征加权,最终经由全连接层完成战术与技术的分类。实验结果表明,ACRCNN在战术、技术分类任务中表现优异,在F1指标上达到了91.91%、83.86%,对比现有模型,分别提高了2.46%和4.94%。  相似文献   

17.
为解决单一的卷积神经网络(CNN)缺乏利用时序信息与单一循环神经网络(RNN)对局部信息把握不全问题,提出了融合注意力机制与时空网络的深度学习模型(CLA-net)的人体行为识别方法。首先,通过CNN的强学习能力提取局部特征;其次,利用长短时记忆网络(LSTM)提取时序信息;再次,运用注意力机制获取并优化最重要的特征;最后使用softmax分类器对识别结果进行分类。仿真实验结果表明,CLA-net模型在UCI HAR和DaLiAc数据集上的准确率分别达到95.35%、99.43%,F1值分别达到95.35%、99.43%,均优于对比实验模型,有效提高了识别精度。  相似文献   

18.
针对目前负荷分解模型的深层负荷特征提取不充分,分解精度低以及训练成本高等问题,提出了一种多尺度特征融合模型。模型由负荷分解子网络及负荷识别子网络两部分构成,两个子网络均利用一维卷积和批量归一化等组成的卷积块进行负荷特征初提取,然后采用金字塔池化模块从多个维度精确提取深层负荷特征信息,并与特征初提取部分进行融合。金字塔池化模块使网络参数大大减少且降低了训练成本。同时与以往模型中的注意力机制不同的是,网络引入多头自注意力机制,每个注意力关注负荷特征的不同部分,从多个角度实现对重要负荷特征的筛选,进一步提高分解性能。最后,在UK-DALE和REDD数据集上进行实验,结果表明所提模型与四个基准模型相比,无论是负荷分解性能还是电器运行状态识别能力都有明显提升。  相似文献   

19.
提出了一种新颖的语音情感识别结构,从声音文件中提取梅尔频率倒谱系数(Melscale frequency cepstral coefficients,MFCCs)、线性预测倒谱系数(linear predictive cepstral coefficients,LPCCs)、色度图、梅尔尺度频谱图、Tonnetz表示和频谱对比度特征,并将其作为一维卷积神经网络(convolutional neural network,CNN)的输入.构建由一维卷积层、Dropout层、批标准化层、权重池化层、全连接层和激活层组成的网络,并使用Ryerson情感说话/歌唱视听(Ryerson audio-visual database of emotional speech and song,RAVDESS)数据集、柏林语音数据集(Berlin emotional database,EMO-DB)、交互式情绪二元运动捕捉(interactive emotional dyadic motion capture,IEMOCAP)数据集这3个数据集的样本来识别情感.为提高分类精度,利用增量方法修改初始模型.为...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号