首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResNet 50对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于DCASE2021 Challenge Task 1B数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。  相似文献   

2.
暴力事件检测是视频内容智能分析的一个常见任务,在互联网视频内容审查、影视作品分析、安防视频监控等领域有重要应用.面向视频中暴力检测任务,提出了一个包含关系网络和注意力机制的方法来融合视频中的多模态特征,该方法首先使用深度学习提取视频中多个模态特征,如音频特征、光流特征、视频帧特征,接着组合不同的模态特征,利用关系网络来建模多模态之间的关系;然后基于深度神经网络设计了多头注意力模块,学习多个不同的注意力权重来聚焦视频的不同方面,以生成区分力强的视频特征.该方法可以融合视频中多个模态,提高了暴力检测准确率.在公开数据集上训练和验证的实验结果表明,提出的多模态特征融合方法,与仅使用单模态数据的方法和现有多模态融合的方法相比,具有明显的优势,检测准确率分别提升了4.89%和1.66%.  相似文献   

3.
为了解决多模态场景分类准确率不高的问题,文中提出一种由互编码器辅助视频的多模态场景分类方法。音频部分首先对输入音频数据进行特征提取并且使用自注意力机制取得关注信息,图像部分首先对视频进行分帧图片提取,然后通过ResNet50网络进行特征提取,随后提取到的双模态信息进入互编码器,互编码器通过提取各个模态隐层特征进行特征融合,融合后的新特征结合attention机制辅助视频特征。在该模型中,互编码器为融合特征的辅助系统。实验基于DCASE2021 Challenge Task 1B数据集进行验证,结果表明互编码器能够提升分类准确率。  相似文献   

4.
针对视频信息具有的多模态性质,提出了融合视音频多种模态特征信息的视频融合分析框架,用以提高视频检索的正确率和效率.该框架根据从视频底层提取出的多种图像特征、音频特征,采用基于图嵌入框架的降维算法MFA降维,根据降维后得到的各种特征向量,训练SVM分类器进行分类,并用改进后的MGR融合算法对SVM分类器输出的序号矩阵进行融合分析.实验结果表明该融合框架融合多种特征提高了分类识别的效率,采用了改进的融合算法降低了计算复杂度,提高了系统的整体性能.  相似文献   

5.
近年来,随着获取信息手段的增多,对高维度数据的聚类变得越来越难.利用深度学习与聚类分析相结合的方式,通过对深度聚类算法的深入调查与研究,提出了基于自编码器的多模态嵌入式聚类模型,该模型分别将自编码器、卷积自编码器、卷积变分自编码器模型提取的特征进行自适应特征融合,再将融合后的特征输入深度聚类层得到聚类结果.多模态数据有助于提取更全面的数据信息,自适应特征融合能够很好地计算每个模态提取特征对融合特征的贡献度,从而提高无监督聚类算法的稳定性.提出的模型在4种公开数据集上进行了实验,验证了该模型的有效性,聚类结果优于现有流行的算法.  相似文献   

6.
针对困难气道气管插管过程中内窥镜图像视角较小、目标尺度变化大、相互遮挡等问题,融合内窥镜图像和CO2浓度信息,提出基于深度学习的多模态气管插管智能目标检测算法。首先,对传统的YOLOv3网络进行改进,利用不同扩张率的空洞卷积构建并行多分支空洞卷积模块,并对输出特征进行上采样和张量拼接;其次,根据多路CO2浓度差异,利用矢量化定位算法定位目标中心位置,校正YOLOv3得到的边界框的中心坐标,提升小目标检测的精度,辅助气道位置的定位;最后,基于该算法,研发了新型多模态气管插管辅助装置初代样机,并在模拟气道中进行实验,验证其可行性。在模拟气道中,该新型辅助装置的操作时间中位数为15.5 s,操作成功率可达97.3%。研究结果表明,基于深度学习的多模态气管插管智能目标检测算法能够有效地辅助气管插管操作。  相似文献   

7.
特征选择中特征数量和分类精度之间的关系通常可以看作是一个多模态多目标优化问题,但现有大多数多模态多目标进化算法对于高维优化问题的求解存在搜索能力不足的问题。为解决该问题,提出一种基于因果模型和多模态多目标进化算法的两阶段特征选择方法。在该方法中,首先使用因果模型对数据进行特征选择以便降低问题维度;然后使用多模态多目标优化算法搜索具有多模态特性的特征子集。为验证所提算法性能,它被用于术中低体温风险预测模型的特征选择问题。实验结果表明,提出的两阶段特征选择方法不仅融合了2种不同方法的优点,而且能为术中低体温预测提供更多决策支持。  相似文献   

8.
为了能够在数量庞大的雷达技术资料中快速准确地找到科研人员感兴趣的雷达知识信息并进行推荐,提出了一种基于注意力模型的多模态特征融合雷达知识推荐方法,学习高层次的雷达知识的多模态融合特征表示,进而实现雷达知识推荐.该方法主要包括数据预处理、多模态特征提取、多模态特征融合和雷达知识推荐4个阶段.实验结果表明:与只利用单一模态特征以及简单串联多模态特征的方法相比,利用文中方法学习到的多模态融合特征进行雷达知识推荐,推荐结果的准确率、召回率和综合评价指标(F1值)均有显著提高,表明提出的基于注意力模型的多模态特征融合方法对于知识推荐任务更加有效,体现了算法的优越性.  相似文献   

9.
为了解决目前基于分解的多模态多目标优化算法存在种群搜索能力不足,子种群中存在无用解和距离度量不具有普适性等问题,提出了一种基于自适应搜索的多模态多目标优化算法MOEA/D-AS.首先,该方法通过减少平均子种群的个体数量,进而增加参考向量的数量.其次,根据子种群当前状态自适应分配子种群的个体数量.最后,使用引入了局部种群信息的清除距离作为维护子种群的依据.将提出的算法与4种算法在2019年CEC多模态多目标测试问题和大规模多模态多目标测试问题上进行对比实验,实验结果表明,提出的算法可以有效解决多模态多目标优化问题.  相似文献   

10.
提出一种基于深度学习与一致性表示空间学习的方法,针对图像与文本2种模态,分别采用卷积神经网络模型和潜在狄利克雷分布算法学习图像的深度特征和文档的主题概率分布;通过一个概率模型将两个高度异构的向量空间非线性映射到一个一致性表示空间;采用中心相关性算法计算不同模态信息在此空间的距离.在Wikipedia Dataset上的实验结果表明:在单模态输入检索中,文中方法的平均准确率为38.43%,相比于其他方法有明显提高.  相似文献   

11.
针对当前智能车辆目标检测时缺乏多传感器目标区域特征融合问题,提出了一种基于多模态信息融合的三维目标检测方法. 利用图像视图、激光雷达点云鸟瞰图作为输入,通过改进AVOD深度学习网络算法,对目标检测进行优化;加入多视角联合损失函数,防止网络图像分支退化. 提出图像与激光雷达点云双视角互投影融合方法,强化数据空间关联,进行特征融合. 实验结果表明,改进后的AVOD-MPF网络在保留AVOD网络对车辆目标检测优势的同时,提高了对小尺度目标的检测精度,实现了特征级和决策级融合的三维目标检测.   相似文献   

12.
智慧园区的建设推动着企业与城市的发展,传统的园区管理方式已不再适用于产业融合创新的智慧园区。以曹家滩园区为例,设计智慧园区平台总体框架,针对园区中身份识别存在识别环境差、效率低、准确率低等问题,提出一种基于多模态多核学习的身份识别算法。所提算法将视频数据中的数据分为图像、音频,并采集个人信息的文本,并将三种模态的信息输入同一样本空间中,通过引入间隔约束的多核学习算法,保留不同模态的差异性和相似性,并进行特征融合与决策融合,最终采用分类器与评分机制输出身份识别结果。通过公开的视频数据集与曹家滩园区数据集进行实验,实验结果表明本文所提算法最高准确率达到97.2%,与传统算法相比有较大优势。  相似文献   

13.
"文本为主"的多模态特征融合的新闻视频分类算法   总被引:4,自引:0,他引:4  
视频分类算法通过融合多模态特征提高分类性能.大多数多模态特征融合算法采用统一模式处理不同模态特征,忽略文本与声音/图像特征在视频分类能力和可靠性方面的差异.该文提出一种新闻视频分类算法,采用文本为主,声音/图像为辅的特征融合模式.该算法充分考虑文本特征在内容分类方面的高可靠性,并在适当情况下,辅以声音/图像信息为补充.对10类新闻视频进行分类实验,并与其他两种分类算法对比,表明在提取相同的底层特征情况下,该文算法的平均分类性能最佳.  相似文献   

14.
有效的疼痛管理对病人的治疗和护理至关重要,针对传统的单模态疼痛识别准确度低的问题,提出了一种基于多模态的贝叶斯网络(MMBN)疼痛识别方法。首先利用互信息对多模态特征进行相关性判断,剔除冗余的特征向量,使得模型简洁;其次将多模态特征与贝叶斯网络结构的可扩展性相结合设计了一种基于多模态的BN结构,并建立疼痛识别模型;最后利用BN概率推理算法完成疼痛识别,并在UNBC-McMaster数据库上进行验证。实验结果表明,与传统基于单模态的疼痛识别方法相比较,MMBN方法利用多模态之间的信息互补性能够有效地提高疼痛识别准确度,为目前的疼痛识别与研究提供了一种新手段。  相似文献   

15.
多模态生物识别可以弥补单模态生物识别存在的缺陷,已成为目前生物识别研究的主流趋势.现有的多模态生物识别大都使用传统的机器学习方法,而以深度学习为代表的新一代人工智能方法在该领域的应用研究相对较少.因此,提出了一种端到端、可训练的卷积神经网络(Convolutional Neural Network,CNN)模型用于多模态生物特征识别,并从单模态和多模态两方面研究模型结构和融合方式对识别性能的影响.在单模态识别中,研究不同网络层数和卷积核对识别性能的影响,并利用单模态识别的结果确定多模态识别的网络结构;在多模态识别中,为研究不同阶段特征融合对识别性能的影响,设计了两种不同的CNN结构;基于3种不同的融合方法,探索单层特征融合和双层特征融合机制对识别性能的影响,并通过组合优化给出一种最优的深度模型结构.为了评估本文方法的性能,分别在AR、Yale、Extended YaleB、LFW、PolyU和CASIA V1.0等6个标准数据库上进行验证.试验结果表明,基于CNN的单模态识别方法优于传统机器学习方法,本文提出的方法能够胜任单模态或多模态生物识别任务.  相似文献   

16.
基于上下文信息的新闻故事单元分割   总被引:1,自引:0,他引:1  
为了有效检索和管理新闻视频资源,提出了一种利用多模态特征、基于上下文信息的新闻故事单元分割方法。首先利用字幕变化、音频类型和视频镜头类型信息将新闻镜头序列转换成为相应的关键词序列,使新闻故事单元分割转换成为文体序列分割的问题;然后应用一种有效的序列分割模型—条件随机场,来分割新闻故事单元。对多段视频的测试结果证明了该方法的有效性,取得了查全率为72.9%、查准率为88.4%的较好结果。  相似文献   

17.
传统视听服务和新兴触觉服务的相互加持,必将为多媒体用户带来更为极致的互动感受和场景体验.针对音频、视频和触觉信号在物理特征、传输需求、呈现形式等维度上均存在本质差异大的问题,提出音-视-触跨模态通信构架,主要包括触觉信号编码、多模态异构码流传输、跨模态信息重建三个方面.首先,基于用户触觉感知机理介绍当前高效、鲁棒的触觉信号编码方案,为实现信号的压缩提供理论依据;其次,通过充分利用码流传输的时空特性,提出一种边缘智能赋能下的多模态异构码流传输策略,以满足超低时延、超高可靠、大容量的传输需求;随后,通过不同模态间语义层面的融合及共享,探索智能、完备的跨模态信息重建机制以提升用户的沉浸感体验;最后,指出跨模态通信仍然存在的挑战以及展望其未来发展方向.  相似文献   

18.
阿尔茨海默病(Alzheimer′s disease,AD)具有数据量少、多模态以及高维度等特点.为了对AD进行有效的预测,首先提出一个基于类内方差最小化的多任务特征选择(minimum intra-class variance-based multitask feature selection,MIVMTFS)算法,然后结合基于有效距离的拉普拉斯分数特征选择(effective distance-based laplacian score feature selection,EDLSFS)算法和MIVMTFS算法,提出一种二阶段多任务特征选择(two-stage multi-task feature selection,TSMTFS)算法.TSMTFS算法先利用EDLSFS算法在保持特征局部结构的情况下对原始样本特征进行无监督预降维,再利用MIVMTFS算法对降维后的特征进行有监督地再降维,最终获得一个精简特征子集.实验部分主要包括AD的2个二分类任务,并分别对单模态数据和多模态数据进行实验.实验结果验证了TSMTFS算法在AD领域能够缓解单模态特征选择的信息不够充分、样本量少以及特征维度高等不足.  相似文献   

19.
吴兰  杨攀  李斌全  王涵 《广西科学》2023,30(1):52-60
视听语音识别(Audio-Visual Speech Recognition,AVSR)技术利用唇读和语音识别(Audio-Visual Speech Recognition,AVSR)的关联性和互补性可有效提高字符识别准确率。针对唇读的识别率远低于语音识别、语音信号易受噪声破坏、现有的视听语音识别方法在大词汇量环境噪声中的识别率大幅降低等问题,本文提出一种多模态视听语音识别(Multi-modality Audio-Visual Speech Recognition,MAVSR)方法。该方法基于自注意力机制构建双流前端编码模型,引入模态控制器解决环境噪声下音频模态占据主导地位而导致的各模态识别性能不均衡问题,提高识别稳定性与鲁棒性,构建基于一维卷积的多模态特征融合网络,解决音视频数据异构问题,提升音视频模态间的关联性与互补性。与现有主流方法对比,在仅音频、仅视频、音视频融合3种任务下,该方法的识别准确率提升7.58%以上。  相似文献   

20.
提出了一种基于文本模态指导的多模态层级自适应融合方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合。首先,基于跨模态注意力机制实现两两模态之间的重要性信息表征;然后通过多模态自适应门控机制实现基于多模态重要信息的层级自适应融合;最后综合多模态特征和模态重要性信息实现多模态情感分析。在公共数据集MOSI和MOSEI上的实验结果表明:对比基线模型,本文所提方法在准确率与F1值方面分别提升了0.76%和0.7%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号