首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
针对传统神经网络提取的复杂环境声音特征微弱,导致分类准确率低的问题,提出了一种基于颜色通道特征融合的环境声音分类方法。首先,从原始音频数据中提取出三种声音特征,即对数梅尔频谱图(log-Mel spectrogram, LMS)、梅尔倒谱系数(Mel-scale frequency cepstral coefficients, MFCC)以及能量谱图(energy spectrum, ES);其次,分别将以上三者作为RGB颜色通道分量进行特征融合,形成包含更多特征信息的声谱图,更全面表征环境声音;再次,为了避免由于数据集较少导致所训练的模型泛化能力较差,对预训练模型VGG-16采用微调方法进行训练;最后,在两个广泛使用的环境声音分类数据集以及实际场景采集的音频上验证本文所提方法的有效性,并与其他模型的准确率进行对比。结果表明,本文所提方法在ESC-10以及ESC-50数据集上的准确率分别能够达到88.2%和65.2%,并且能提高实际场景采集的音频分类效果。  相似文献   

2.
经典的卷积神经网络模型损失函数在设计时只考虑输出与标签之间的比较,没有涉及到图片之间的差异.为了提高卷积神经网络模型提取特征的差异,提出了基于Triplet network模型约束的卷积神经网络模型,这种方法提高了卷积神经网络提取有效特征的能力,减少数据集数量对于模型的影响.在MNIST数据集和cifar-10数据集上进行实验,提出的新模型在这2个数据集上比经典的卷积神经网络模型识别效果更好.  相似文献   

3.
为了实现对遥感图像目标检测,对YOLO v3算法特征提取网络进行了改进。采用复制主干网络的方法,搭建辅助网络,使网络能够提取到更多的特征。为了使主干网络和辅助网络所提取的特征整合到一起,采用挤压激励(Squeeze and excitation, SE)注意力机制模块进行连接并使用DOTA数据集进行验证,以准确率等评价指标来评价改进网络的性能。实验结果表明,检测的能力在改进后有着明显的提升,比原始的YOLO v3算法准确率提高了8.68%,在检测精度上有所提升。  相似文献   

4.
为了实现对遥感图像目标检测,对YOLO v3算法特征提取网络进行了改进。采用复制主干网络的方法,搭建辅助网络,使网络能够提取到更多的特征。为了使主干网络和辅助网络所提取的特征整合到一起,采用挤压激励(Squeeze and excitation, SE)注意力机制模块进行连接并使用DOTA数据集进行验证,以准确率等评价指标来评价改进网络的性能。实验结果表明,检测的能力在改进后有着明显的提升,比原始的YOLO v3算法准确率提高了8.68%,在检测精度上有所提升。  相似文献   

5.
杨磊 《河南科技》2023,(6):28-32
【目的】为了能准确识别出他车的切入意图,同时解决由爆发性增长的无标签行车数据所引起的识别模型落地难的问题。【方法】本研究提出一种双层无监督的车辆切入意图识别模型,该模型由聚类模块及意图识别模块组成。聚类模块采用高斯混合模型对基于NGSIM构造的无标签数据集进行聚类分析,并挖掘其内在的数据关系,从而获取切入时不同驾驶行为对应的特征标签。意图识别模块用于识别车辆切入意图,该模块是基于LSTM搭建的。该模块先结合聚类模块来获取特征标签及无标签数据集,构造新的有标签训练集及测试集,然后将其输入到神经网络中进行训练与测试。【结果】该模型在基于真实路况的NGSIM数据集上表现较好,对驾驶意图的识别准确率达到97%,精度较高。【结论】该模型在无标签数据上具有较好的识别能力。  相似文献   

6.
提出了一种基于Pre-LN Transformer的静态多模态情感分类模型.该模型首先利用Pre-LN Transformer结构中的编码器提取评论文本中的语义特征,其中编码器的多头自注意力机制允许模型在不同的子空间内学到相关情感信息.然后根据ResNet提取评论的图像特征,在特征水平融合的基础上通过视觉方面注意力机制...  相似文献   

7.
在基于深度学习的行人重识别算法中,通道特征易被忽视而导致模型表达能力降低。为此,以ResNeSt50为骨干网络,借鉴SENet通道注意力特点在残差块末尾接入SE block,增强网络对通道特征的提取能力;针对ReLU函数因缺少控制因子而限制不同通道特征图对激活值的准确响应问题,引入一个动态学习因子来丰富通道特征权重信息,以形成新的加权激活函数Weighted ReLU(WReLU);基于分组卷积特征图局部而设计新的激活函数Leaky Weighted ReLU(LWReLU),有效提高不同位置的深度特征表达能力;在Split-Attention和SE block中应用LWReLU,改善Split-Attention对各组特征图的权重学习能力;利用circle loss改进损失函数,优化目标收敛过程,从而提高模型精度。实验结果表明:在CUHK03-NP、Market1501和DukeMTMC-ReID数据集上,所提方法的Rank-1比原骨干网络分别提高了19.08%、0.98%、2.02%,且其m AP比原骨干网络分别提高了17.13%、2.11%、2.56%。  相似文献   

8.
针对机器识别人类情感过程中的精度不高、泛化能力不强等问题,提出了一种基于语音、文本和表情动作的3种模态情感识别融合方法。在语音模态中,设计深度波场延拓和改进波动物理模型,模拟长短期记忆(long short-term memory, LSTM)网络的序列信息挖掘过程;在文本模态中,利用含有多头注意力机制的Transformer模型捕捉语义上潜在的情感表达;在表情动作模态中,将提取面部表情和手部动作的序列特征与双向三层含有注意力机制的LSTM模型相结合。最终提出一种多性能指标下的模态融合方案,以实现高精度的、强泛化能力的情感识别。在通用的交互式情感二元运动捕捉语料库IEMOCAP中,将所提出的方法与现有的情感识别算法进行对比,实验结果表明:所提出的算法在单个模态和多个模态中的识别精度均较高,平均精度改善达到16.4%和10.5%,有效提升了人机交互中情感识别的能力。  相似文献   

9.
遥感影像变化检测是利用多时相影像确定一定时间内地物或现象的变化,提供地物空间变化的定性与定量信息。传统遥感影像变化检测方法主要基于地面纹理及空间特征的方法,存在着难以精确识别遥感影像中新增建筑物的问题,为此该文提出了一种基于UNet网络的遥感影像建筑物变化检测方法。首先,将轻量级高效通道注意力机制网络(efficient channel attention network, ECANet),注入到原UNet网络模型,调整并优化网络结构,提升影像分割的准确度。然后改进SENet网络参数,提高遥感影像中的建筑物变化检测的精度。该文在高分辨率数据集LIVER-CD上进行实验,结果表明,所提方法的语义分割准确度达到99.03%,建筑变化检测准确率达到98.62%。相比于其他方法,该方法增强了影像的有效特征,提升了遥感影像中地面建筑物的检测精度。  相似文献   

10.
针对局部特征的图像描述模型存在的不足之处,提出了一种结合局部和全局特征的带有注意力机制的图像描述生成模型.在编码器-解码器结构框架下,在编码器端利用InceptionV3和VGG16网络模型分别提取图像的局部特征和全局特征,将两种不同尺度的图像特征融合形成编码结果.在解码器端,利用长短期记忆网络将提取的图像特征翻译为自然语言,借助微软COCO数据集进行模型训练和测试.实验结果表明:与基于局部特征的图像描述生成模型相比,该方法能够从图像中提取更加丰富完整的信息,生成表达图像内容更加准确的句子.  相似文献   

11.
动态人脸图像序列中表情完全帧的定位与识别   总被引:1,自引:1,他引:0  
考虑到人脸表情演变是一个持续过程,相比于静态图像,动态图像序列更适合作为人脸表情识别的研究对象。该文提出了一种基于嵌入网络的序列帧定位模型,利用加载预训练权重的Inception ResNet v1网络提取人脸表情序列各帧的特征向量,通过计算特征向量间的欧氏距离,定位出具有最大表情强度的完全帧,进而获取人脸表情序列数据;为了进一步验证定位模型的准确性,分别利用VGG16模型和ResNet50模型对定位的完全帧进行人脸表情识别。在CK+和MMI人脸表情数据库上进行了实验,所提的序列帧定位模型的定位平均准确率分别达到98.31%和98.08%;利用VGG16模型与ResNet50模型对定位的完全帧进行表情识别,在两个数据库上的实验结果分别达到了96.32%和96.5%,87.23%和87.88%,结果表明所提出的模型能够获取可靠的表情完全帧,并取得了令人满意的人脸表情识别效果。  相似文献   

12.
现有的检测方法对轨道板细微裂缝和夜间拍摄的裂缝图像存在误检和漏检的现象,为此提出了一种基于卷积神经网络的改进方法。将特征图分组后用注意力机制强化各组向量的特征表达,以动态聚合弱分类器预测结果的方式得到最终的裂缝置信度。借助投票机制有效降低最终的预测偏差,提升模型的鲁棒性。实验结果表明:该改进方法在减少模型参数的情况下,在裂缝数据集上的准确率提升1.6%,在CIFAR-10数据集上的准确率提升2.8%。  相似文献   

13.
基于CNN和Bi-LSTM的脑电波情感分析   总被引:1,自引:0,他引:1  
针对目前大多数脑电波情感识别方法存在的依赖手动特征提取等问题,提出一种基于卷积神经网络(convolutional neural network,CNN)和双向长短时记忆(bidirectional long short-term memory,Bi-LSTM)网络的混合模型.首先将一维数据转换为二维数据,采用CNN提...  相似文献   

14.
基于脑电信号深度学习的情感分类   总被引:1,自引:1,他引:0  
情感脑电研究作为人工智能高级阶段的重要任务,近年来受到越来越多的关注。情感脑电分类广泛应用于人机交互、医学研究等领域。该文以轻量级的卷积神经网络为核心,设计了情感脑电分类模型,以DEAP(dataset for emotion analysis using physiologicalsignals)提供的情感脑电图数据为基础,将其中的观看视频划分为唤醒度和愉悦度2个维度。为了获得频域信息,提取了theta、alpha、beta和gamma波段的功率谱密度特征进行评估,并将功率谱密度矩阵表示为二维灰度图像。然后将该图像输入到卷积神经网络训练分类模型并完成2个维度的分类任务。实验结果表明,与传统机器学习相比,卷积神经网络具有更好的分类效果,唤醒度分类准确率达到了82.33%,愉悦度分类准确率达到了75.46%。  相似文献   

15.
针对场景图像的细粒度分类任务,结合图像视觉和文本的多模态信息提出了一种基于注意力网络推理图的细粒度图像分类方法.首先提取场景图像的全局视觉特征、局部视觉特征和文本特征,把位置信息分别嵌入局部视觉特征和文本特征后拼接成新的特征,再将这个新的特征作为图结构的节点生成一个异构图;然后设计两条元路径将异构图分解成两个同构图,并...  相似文献   

16.
提出了一种针对竹笛技巧分类的数据集Breath和两个用于竹笛技巧分类的神经网络参考模型Breath1d和Breath2d,并针对此数据集的不同分类任务给出了最佳方法。将Breath数据集划分成子集,以多层感知机为性能评价基准方法,先用Breath1d和Breath2d模型对子集进行训练和预测,再用长短期记忆网络模型进行辅助测试,最后得出了最适合子任务的分类参考模型。对全数据集进行分类时,将Breath2d与Breath1d模型进行融合,并采用数据增强方法使全集分类准确率达到0.913。与传统音频分类任务相比,该工作扩展了音乐分类的研究领域,对民族音乐现代化发展有着良好的推动作用。  相似文献   

17.
对深度学习领域的稠密卷积网络(dense convolutional network,DenseNet)进行改进,提出了一种嵌套网络模型下的相似图像检索方法。该方法主要通过嵌入压缩和激励网络(squeeze-and-excitation network,SENet),调整原DenseNet网络结构,优化特征提取模块,从而提高图像检索的准确率。在整个深度学习的过程中,给图像特征通道设置合理的权值,抑制图像中的无效特征,能够进一步提高图像的检索速度。实验结果表明,所提算法能够加强图像有效特征的传递,无论从精度和速度方面均可得到较好的图像检索结果。  相似文献   

18.
中文命名实体识别(named entity recognition, NER)字符级别模型会忽略句子中词语的信息,为此提出了一种基于知识图谱中实体类别信息增强的中文NER方法。首先,使用分词工具对训练集进行分词,选出所有可能的词语构建词表;其次,利用通用知识图谱检索词表中实体的类别信息,并以简单有效的方式构建与字符相关的词集,根据词集中实体对应的类别信息生成实体类别信息集合;最后,采用词嵌入的方法将类别信息的集合转换成嵌入与字符嵌入拼接,以此丰富嵌入层生成的特征。所提出的方法可以作为嵌入层扩充特征多样性的模块使用,也可与多种编码器-解码器的模型结合使用。在微软亚洲研究院提出的中文NER数据集上的实验展现了该模型的优越性,相较于双向长短期记忆网络与双向长短期记忆网络+条件随机场模型,在评价指标F1上分别提升了11.00%与3.09%,从而验证了知识图谱中实体的类别信息对中文NER增强的有效性。  相似文献   

19.
针对目前广泛采用的美尔倒谱系数(MFCC)鲁棒性不足的问题,基于人类听觉模型提出了一种可用于战场声目标识别的倒谱系数. 用小波包变换代替了传统的傅里叶变换,克服了傅里叶变换在频域上单分辨率的缺陷和对噪声的敏感性. 用指数压缩替换固定的对数压缩,较好地模拟了人耳处理信号的非线性能力. 在SensIT实验数据和外场实际采集的低空目标数据上的实验结果表明:相对于经典的美尔倒谱系数,本文提出的倒谱系数在识别准确性和抗噪声能力方面都有较明显的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号