首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResNet 50对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于DCASE2021 Challenge Task 1B数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。  相似文献   

2.
近年来,随着获取信息手段的增多,对高维度数据的聚类变得越来越难.利用深度学习与聚类分析相结合的方式,通过对深度聚类算法的深入调查与研究,提出了基于自编码器的多模态嵌入式聚类模型,该模型分别将自编码器、卷积自编码器、卷积变分自编码器模型提取的特征进行自适应特征融合,再将融合后的特征输入深度聚类层得到聚类结果.多模态数据有助于提取更全面的数据信息,自适应特征融合能够很好地计算每个模态提取特征对融合特征的贡献度,从而提高无监督聚类算法的稳定性.提出的模型在4种公开数据集上进行了实验,验证了该模型的有效性,聚类结果优于现有流行的算法.  相似文献   

3.
基于深度学习的监控视频树叶遮挡检测   总被引:2,自引:0,他引:2       下载免费PDF全文
结合稀疏自编码器的自动提取数据特征能力和深度置信网络较好的分类性能,提出一种基于深度学习的监控视频树叶遮挡检测方法。首先从视频中随机选取一帧图像,通过栈式稀疏自编码器主动学习视频图像的特征信息,然后采用深度置信网络建立分类检测模型,最后引入学习速率自适应调整策略对整个神经网络进行微调。该方法不需要对视频连续取帧,具有较好的图像特征主动学习能力,克服了人工提取特征能力有限的缺陷。实验结果表明,在样本量充足的条件下,使用本文方法进行监控视频树叶遮挡检测可以达到88.97%的准确率。  相似文献   

4.
为解决传统音乐情感分类特征单一,导致训练效果差的问题,提出了一种多模态注意力融合网络模型,首先将执行情感分类使用的歌词和音频分离,将上下文特征提取方法与分类器相结合,从而提高特征提取效率;其次通过注意机制融合多模态特征,从而加快模型训练效率及情感分类准确率;接着提出了一种自适应孤立森林噪声方法增强模型对不均衡样本的适应性,并在一定程度上缓解模型过拟合问题.最后,将模型与LSTM、GRU、BI-LSTM、BI-GRU等模型进行仿真比较,结果表明所提模型性能最优,情绪分类准确率可达96.46%.  相似文献   

5.
针对基于视频的多模态情感分析中,通常在同一语义层次采用同一种注意力机制进行特征捕捉,而未能考虑模态间交互融合对情感分类的差异性,从而导致模态间融合特征提取不充分的问题,提出一种基于注意力机制的分层次交互融合多模态情感分析模型(hierarchical interactive fusion network based on attention mechanism, HFN-AM),采用双向门控循环单元捕获各模态内部的时间序列信息,使用基于门控的注意力机制和改进的自注意机制交互融合策略分别提取属于句子级和篇章级层次的不同特征,并进一步通过自适应权重分配模块判定各模态的情感贡献度,通过全连接层和Softmax层获得最终分类结果。在公开的CMU-MOSI和CMU-MOSEI数据集上的实验结果表明,所给出的分析模型在2个数据集上有效改善了情感分类的准确率和F1值。  相似文献   

6.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.  相似文献   

7.
为了解决密集型视频描述(dense video captioning, DVC)任务中视频特征利用不充分,视频定位分段不准确,语义描述效果不丰富的问题,采用多模注意力机制的密集型视频描述方法,提取视频中的视觉特征、音频特征和语音特征.通过多模注意力机制,在编码器中计算不同模态视频帧特征间的关联程度,在解码器中计算描述词序列特征与编码器输出的多模态视频帧特征间的关联程度,并将编码器、解码器输出特征分别作用于视频定位分段模型和语义描述模型获得视频分段和分段描述.提出的方法在ActivityNet Captions数据集上进行了理论分析和实验验证,其中F1-score达到60.09,METEOR指标达到8.78.该方法有效提高了视频定位分段和语义描述的准确性.  相似文献   

8.
为有效提取复杂且冗余的网络流量数据特征并进行更好地特征表达,提出了一种基于自编码器和对比学习的入侵检测方法。通过自编码器可捕捉网络数据流量特征间的非线性相关性,实现对数据的降维处理和特征提取,同时,采用对比学习对网络流量数据进行表征学习,通过优化对比学习损失函数进行端到端学习。在两个基准数据集NSL-KDD和UNSW-NB15进行分类试验。结果表明,相对于其他深度学习的入侵检测方法,该模型有效地提高了识别准确率和精确率。  相似文献   

9.
针对视频中包含的异常事件数量稀少,信息密集的特征容易被遗漏等问题,本文提出一种双交叉注意力自编码器的视频异常事件检测方法.首先预处理视频集,提取视频帧中表观和运动特征,然后设计双交叉注意力模块融入自编码器中,使特征图在自编码器中能够更好地关联全局特征.其次将提取后的特征放入各自的自编码器中学习正常行为,使含有正常事件的视频帧能被模型重构,含有异常事件的视频帧则无法被重构.最后通过检测模型得到各个视频帧的重构误差从而进行异常事件判定.该方法可以以局部特征关联全局特征的方式有效提高视频异常事件检测的准确率,通过在多个公开数据集中进行实验验证,证明该方法优于其他同类方法.  相似文献   

10.
不同于纯文本的情绪分析, 本文面向多模态数据(文本和语音)进行情绪识别研究。为了同时考虑多模态数据特征, 提出一种新颖的联合学习框架, 将多模态情绪分类作为主任务, 多模态情感分类作为辅助任务, 通过情感信息来辅助提升情绪识别任务的性能。首先, 通过私有网络层对主任务中的文本和语音模态信息分别进行编码, 以学习单个模态内部的情绪独立特征表示。接着, 通过辅助任务中的共享网络层来获取主任务的辅助情绪表示以及辅助任务的单模态完整情感表示。在得到主任务的文本和语音辅助情绪表示之后, 分别与主任务中的单模态独立特征表示相结合, 得到主任务中单模态情绪信息的完整表示。最后, 通过自注意力机制捕捉每个任务上的多模态交互特征, 得到最终的多模态情绪表示和情感表示。实验结果表明, 本文方法在多模态情感分析数据集上可以通过情感辅助信息大幅度地提升情绪分类任务的性能, 同时情感分类任务的性能也得到一定程度的提升。  相似文献   

11.
多模态医学影像信息已经在计算机辅助检测和诊断中被广泛地应用。在对Alzheimer病(Alzheimer's disease, AD)的分类与诊断中,结合多个模态医学影像的特征信息能够更加准确且全面地对同一AD主题进行分类与诊断。该文提出了一种基于卷积神经网络的模型结构,分别对AD病患的磁共振图像(MRI)和正电子发射型计算机断层显像(PET)图像进行3D卷积操作来提取各自模态的特征信息,并应用模型融合方法对模态特征信息加以融合,从而得到包含更加丰富的多模态特征信息。最后用全连接神经网络将上述提取的多模态特征信息进行分类预测。通过在AD神经影像学倡议(Alzheimer's disease neuroimaging initiative, ADNI)公开数据集上的实验结果表明:该文所提出的模型在准确率(accuracy, ACC)和曲线下面积(area under the curve, AUC)的性能评价中都取得了更加优越的结果。  相似文献   

12.
不同模态特征描述网络新闻数据各具优势。为充分利用不同模态特征的优点,提高网络新闻图像检索准确率,提出了一种基于有向图理论模型的多模态特征融合检索方法。首先对新闻图像进行预处理,提升新闻图像兴趣点对比度,之后对新闻文本提取关键词,然后对新闻图像进行场景辨别,结合图像人物特征,将文本、场景、人物特征依据有向图理论模型进行融合,形成基于有向图理论模型的多模态融合检索。在10万条新闻数据上测试,实验结果表明,本文提出的方法检索准确率达到了69%,查全率达到70%,效果提升了5%。  相似文献   

13.
挖掘不同模态内信息和模态间信息有助于提升多模态情感分析的性能,本文为此提出一种基于跨模态交叉注意力网络的多模态情感分析方法。首先,利用VGG-16网络将多模态数据映射到全局特征空间;同时,利用Swin Transformer网络将多模态数据映射到局部特征空间;其次,构造模态内自注意力和模态间交叉注意力特征;然后,设计一种跨模态交叉注意力融合模块实现不同模态内和模态间特征的深度融合,提升多模态特征表达的可靠性;最后,通过Softmax获得最终预测结果。在2个开源数据集CMU-MOSI和CMU-MSOEI上进行测试,本文模型在七分类任务上获得45.9%和54.1%的准确率,相比当前MCGMF模型,提升了0.66%和2.46%,综合性能提升显著。  相似文献   

14.
针对视频信息具有的多模态性质,提出了融合视音频多种模态特征信息的视频融合分析框架,用以提高视频检索的正确率和效率.该框架根据从视频底层提取出的多种图像特征、音频特征,采用基于图嵌入框架的降维算法MFA降维,根据降维后得到的各种特征向量,训练SVM分类器进行分类,并用改进后的MGR融合算法对SVM分类器输出的序号矩阵进行融合分析.实验结果表明该融合框架融合多种特征提高了分类识别的效率,采用了改进的融合算法降低了计算复杂度,提高了系统的整体性能.  相似文献   

15.
针对基于序列建模的车辆异常轨迹检测方法轨迹空间特征提取不够充分而降低了检测效果这一问题,提出融合时序和空间特征的车辆异常轨迹检测方法,充分提取轨迹的时间与空间特征以提升异常轨迹检测精度。采用融合自注意力机制的堆叠序列自编码器,从网格化后的映射轨迹中提取轨迹时序特征;引入全连接神经网络,提取轨迹偏转量和行驶距离等空间特征;融合轨迹的时间和空间特征,进行异常轨迹检测以提升检测效果。实验表明,提出的方法在真实出租车数据集上的异常轨迹检测准确率优于92%,F1评分优于80%,与XGBoost、IBAT、ATDC和ATD-RNN方法相比,检测性能提升较为明显。  相似文献   

16.
为了消除多通道近红外光谱信号中存在的冗余信息并提取抽象特征,构建了基于混合自编码器的脑力负荷识别模型。首先,将原始信号送入栈式自编码器中进行通道降维;然后使用卷积自编码器对降维后的信号进行无监督学习从而提取抽象特征,并将特征依次送入支持向量机、K最近邻、随机森林这3种基分类器中进行建模;最后,用软、硬投票的集成策略来提高模型对脑力负荷识别的准确性。实验结果表明,混合自编码器具有良好的通道降维和提取抽象特征的能力,该模型在脑力负荷三分类任务中的准确率可以达到95.12%,相对于同类研究准确率有明显提升。  相似文献   

17.
为有效对视频数据进行降维并去除特征集合中的冗余信息, 以提高异常事件的检测效率, 从特征提取和选择的角度提出了融合特征区分度和相关性的视频异常事件检测方法。利用视频数据的时空邻域信息进行特征提取。通过分析特征的判别力和相关性进行特征选择, 从而去除特征集合中的冗余信息, 提高异常事件检测的效率和准确性。实验结果表明, 该方法的检测准确率都优于其他传统方法, 能有效地对场景中发生异常事件的区域进行准确定位。  相似文献   

18.
为了提取连铸机扇形段在正常浇铸状态下的故障特征,设计一种利用鲸鱼优化算法(WOA)改进的堆叠降噪自编码器(SDAE)网络模型,命名为WOA-SDAE,并应用于扇形段拉矫力信号特征学习和故障分类。首先,从完整的浇铸周期中获取正常浇铸状态下的数据,对低频的拉矫力信号进行时域特征提取,将一维拉矫力信号转换为多维时域特征信号,并建立评价体系以寻找最优时域参数;其次,运用堆叠降噪自编码器与softmax分类器组成网络模型对故障信号进行分类,采用鲸鱼优化算法确定SDAE模型中隐含层层数与节点数。通过实际生产过程中的连铸机扇形段拉矫力信号来验证所提方法的可行性。试验结果表明,WOA-SDAE可有效提取扇形段的故障特征,在测试集上的识别准确率达到92.23%。  相似文献   

19.
针对基于多模态生理信号分析的驾驶压力识别会影响驾驶员的行车舒适性,且传统的生理特征的提取需要依赖先验知识的问题,构建了基于单模态生理信号无监督特征学习的驾驶压力识别模型.首先采用单模态生理信号,通过构造卷积自编码器进行无监督的特征学习来提取抽象特征;然后将特征依次送入支持向量机、随机森林、K最近邻、梯度提升决策树4种不...  相似文献   

20.
针对轨迹预测中车辆与周边车辆、道路几何之间交互关系建模不充分,以及车辆轨迹多模态建模不完整等一系列问题,提出了一种基于变分自动编码器的车辆轨迹预测方法。首先,通过长短时记忆网络从原始数据中提取轨迹数据与车道信息的语义特征;其次,引入多头注意力机制,采用两个单独的注意力模块分别建立车辆与车辆交互模型及车辆与道路交互模型,能够更好地反映周边车辆与道路几何对车辆轨迹的交互影响,得到丰富的场景上下文信息;接着利用变分自动编码器对车辆轨迹多模态建模,捕捉轨迹预测的随机性质以生成合理的未来轨迹分布;最后从分布中多次重复采样以生成多条可能的未来轨迹。通过搭建实验平台和使用Argoverse自然驾驶数据集进行测试,改进后的预测方法在平均位移误差和最终位移误差指标下的数值分别为1.03和1.51,预测精度上相较于其他3种预测方法,分别提升了45%、46%、32%;实验结果表明:预测方法可以有效地改善车辆与周边车辆、道路几何之间交互关系建模不充分,以及车辆轨迹多模态建模不完整等问题,预测精度提高,总体预测性能良好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号