共查询到19条相似文献,搜索用时 531 毫秒
1.
针对水下图像成像环境复杂常受偏色等因素干扰而影响后续图像分析的问题,提出一种基于多尺度特征与三重注意力多模态融合的深度卷积神经网络图像复原方法.首先,深度卷积神经网络在抽取图像空间特征的基础上,引入图像多尺度变换特征;其次,通过通道注意力、监督注意力和非局部注意力,挖掘图像特征的尺度间相关性、特征间相关性;最后,通过设计多模态特征融合机制,将上述两类特征有效融合.在公开的水下图像测试集上进行测试并与当前主流方法进行对比的实验结果表明,该方法在峰值信噪比、结构相似性等定量对比以及颜色、细节等定性对比上都优于对比方法. 相似文献
2.
智慧司法是智慧城市建设中不可或缺的一部分,智慧司法中法律文书推荐体系的建设完善可以有效解决裁判尺度不统一,类案不同判和量刑不规范等问题.针对现阶段法律文书推荐体系不完善,存在对算力要求高、推荐准确率低和不能满足用户对诉讼请求服务的即时性需求问题,以及为了建立智慧司法中法律纠纷快速响应机制,文中提出了基于深度多模态与核密... 相似文献
3.
针对基于视频的多模态情感分析中,通常在同一语义层次采用同一种注意力机制进行特征捕捉,而未能考虑模态间交互融合对情感分类的差异性,从而导致模态间融合特征提取不充分的问题,提出一种基于注意力机制的分层次交互融合多模态情感分析模型(hierarchical interactive fusion network based on attention mechanism, HFN-AM),采用双向门控循环单元捕获各模态内部的时间序列信息,使用基于门控的注意力机制和改进的自注意机制交互融合策略分别提取属于句子级和篇章级层次的不同特征,并进一步通过自适应权重分配模块判定各模态的情感贡献度,通过全连接层和Softmax层获得最终分类结果。在公开的CMU-MOSI和CMU-MOSEI数据集上的实验结果表明,所给出的分析模型在2个数据集上有效改善了情感分类的准确率和F1值。 相似文献
4.
生物特征识别是信息技术领域的研究热点,其中多模态生物识别技术凭借更好的适用性、更高的安全性及更优的性能成为发展趋势。提出了一种融合虹膜特征和掌纹特征的多模态生物特征识别方法,该方法分别提取虹膜及掌纹特征,融合时不同于传统的匹配级融合,而是从特征级融合入手,采用并行特征融合策略,将两特征向量以复向量的形式进行融合,构成复向量空间,并利用酉距离进行匹配决策。实验结果表明此方法比单模生物特征方法在识别性能上有了明显改善,同时与传统匹配级融合策略相比,更有优势,识别效果更好。 相似文献
5.
针对多模态人脸防伪检测中如何有效融合多模态信息的问题,提出一种注意力感知特征提取和融合的多模态人脸防伪检测方法(attention-aware feature extraction and fusion,AFEF).在跨模态特征融合部分利用通道和空间注意力机制探索不同模态之间的互补信息,以弥补单一模态特征表达不足的问题;利用卷积融合方式融合多模态特征,以避免信息覆盖或者无关信息强化的问题;在特征提取部分引入CBAM注意力机制,获得更细粒度的各模态特征表示,便于后续进行跨模态特征融合.实验结果表明,与当前其他主流多模态人脸防伪算法相比,提出的方法在CASIA-SURF和CeFA两个多模态数据集上的平均分类错误率(average classification error rate,ACER)均最低,算法有效. 相似文献
6.
为了解决密集型视频描述(dense video captioning, DVC)任务中视频特征利用不充分,视频定位分段不准确,语义描述效果不丰富的问题,采用多模注意力机制的密集型视频描述方法,提取视频中的视觉特征、音频特征和语音特征.通过多模注意力机制,在编码器中计算不同模态视频帧特征间的关联程度,在解码器中计算描述词序列特征与编码器输出的多模态视频帧特征间的关联程度,并将编码器、解码器输出特征分别作用于视频定位分段模型和语义描述模型获得视频分段和分段描述.提出的方法在ActivityNet Captions数据集上进行了理论分析和实验验证,其中F1-score达到60.09,METEOR指标达到8.78.该方法有效提高了视频定位分段和语义描述的准确性. 相似文献
7.
使用多模态数据建模可以有效地克服单一模态信息量不足的问题,大大提高模型的性能.但在量化神经网络模型置信度,尤其是对于多模态融合模型方面并没有很多进展.基于此,提出一种基于嵌入的方法,在嵌入空间中通过计算样本间的距离进行局部密度估计,进而计算模型的置信度分数.该方法具备可扩展性,不仅可以用于单一模态模型,还可以用于多模态... 相似文献
8.
针对真实环境场景会同时出现多种事件导致场景分类准确率受到干扰信息影响的问题,本文提出了一种基于自注意力机制的多模态场景分类方法。首先,对音频进行特征提取并使用自注意力机制获得关注信息;然后,对视频进行分帧图片抽取,通过ResNet 50对图片特征进行提取;最后,将两个模态的特征进行拼接并再次使用自注意力机制对特征信息进行抓取分类。基于DCASE2021 Challenge Task 1B数据集的实验结果表明,与其基线系统、双模态信息简单拼接、视频辅助音频和音频辅助视频的分类系统相比,基于自注意力机制的多模态场景分类系统的准确率优于单模态互相辅助决策的场景分类系统。 相似文献
9.
提出了一种基于文本模态指导的多模态层级自适应融合方法,以文本模态信息为指导实现多模态信息的层级自适应筛选及融合。首先,基于跨模态注意力机制实现两两模态之间的重要性信息表征;然后通过多模态自适应门控机制实现基于多模态重要信息的层级自适应融合;最后综合多模态特征和模态重要性信息实现多模态情感分析。在公共数据集MOSI和MOSEI上的实验结果表明:对比基线模型,本文所提方法在准确率与F1值方面分别提升了0.76%和0.7%。 相似文献
10.
推荐系统在解决新闻准确呈现的问题上显示出巨大的潜力。现有的新闻推荐系统大多只考虑新闻文本,忽略了新闻图片与用户之间的关系。但新闻图片也是用户决定点击新闻的重要因素。本文将ViLBERT与多模态知识图注意力网络相结合,利用多模态知识提高新闻推荐系统的准确率,使用多模态图关注技术在多模态知识图关注网络上传播信息,将生成的图像和文本聚合嵌入推荐的表示,以有效地表征目标,缓解推荐系统中用户行为稀疏和冷启动的问题。通过在两个不同的真实中英文新闻数据集上进行了实验,结果表明本模型可以有效地提高新闻推荐的准确率。 相似文献
11.
在新闻推荐场景下,传统的基于文本特征的新闻推荐模型只考虑了词的共现关系,无法捕获词语的隐含词义和关联知识;而基于深度学习的推荐模型在融合知识图谱信息中仅仅考虑实体的信息,忽略了远距离实体之间的联系,造成实体之间的关联信息和深层次语义联系的缺失.针对该问题提出了一种基于知识增强的深度新闻推荐网络(deep knowledge-enhanced network,DKEN),利用长短期记忆网络提取知识图谱中的实体路径特征,补充到注意力网络中,然后针对不同的候选新闻动态地构建用户的特征.实验表明该实体路径信息能提高模型的效果,在F1指标上提升大约1%. 相似文献
12.
针对现有方法在建模用户、项目及其上下文特征上与社交网络耦合程度低,且没有充分挖掘社交信息中其他细粒度特征的问题,提出一种基于上下文增强和分层注意力机制的社交推荐模型(context enhancement and hierarchical attention mechanism social recommendation,CEHA SR)。针对社交网络用户间关系所具有的图结构性质,该模型以图神经网络为框架,对社交信息、用户 项目 类别信息使用分层的注意力机制从不同层面的特征进行充分建模,并自适应得到不同特征之间的关系权重。在Ciao 28和Epinions 27两个真实数据集上的验证表明,该模型的均方根误差和平均绝对误差比经典的图神经网络社交推荐模型(GraphRec)分别降低了约363%、413%和433%、412%。 相似文献
13.
针对传统法条推荐方法知识利用不足的问题,结合预训练BERT模型,提出了一种基于司法领域法律条文知识驱动的法条推荐方法。首先基于BERT预训练模型对法条知识和案件描述分别进行表征,并基于双向LSTM对案件描述文本进行特征提取,然后基于注意力机制提取融合法条知识的案件描述文本特征,最终实现法条智能推荐。该方法在法研杯公共数据集上,法条推荐F1值达到0.88,结果表明,融合法条知识的BERT模型对法条推荐具有显著提升作用,并且可以有效地解决易混淆法条推荐问题。 相似文献
14.
为解决低光照条件下已有图像分割模型性能降低的问题,提出了一个基于RGB和深度图特征融合网络的MDF-ANet图像分割方法.为了对原始数据进行充分的特征学习,采用两路特征提取网络分别提取RGB和深度图特征;设计了一个特征融合模块,分别将两路特征提取网络对应尺度下的输出特征图通过融合模块进行融合,并作为RGB网络下一层的输入,通过不受光照条件影响的深度图来辅助RGB的特征提取;将各个尺度输出的特征图输入多尺度上采样融合模块,进行不同感受野间的信息互补,再上采样至原始输入图像大小,得到分割图像.在Cityscapes及其转化后的低光照图像上进行了一系列实验,在其验证集上取得了62.44%的均交并比(mean intersection over union,mIOU),相比只使用RGB输入的模型,性能提高了9.1%,达到了在低光照条件下提高图像分割性能的目的. 相似文献
15.
现有的多行为推荐系统未有效利用不同层次的图传播信息,难以捕获用户不同行为的影响。为解决此问题,文章提出了一种基于图注意力网络的多行为推荐模型(GABR):首先,采用小批量采样节点嵌入方法聚合同一行为类型交互的邻域节点,以提高特征表示效率;接着,采用注意力机制学习不同行为类型的影响系数,以进一步融合节点特征;然后,合并多层用户和项目表示,以有效利用不同层次的图传播信息;最后,将已交互的用户-项目对和随机采样未交互过的用户-项目对作为正负样本对来训练目标模型,以优化模型性能。为验证模型推荐性能,在3个真实数据集(Yelp、Scholat、Beibei)上与现有9种推荐模型进行对比。实验结果表明GABR模型能够有效利用融合了不同行为类型影响系数的多层图传播信息,更好地预测用户偏好:在3个真实数据集上,与目前最佳的基线模型(GNMR)相比,GABR模型的HR、NDCG平均提高了1.73%、2.43%。 相似文献
16.
岩心图像的孔洞分割对于石油勘探有着重要意义。当前基于深度学习的孔洞分割方法存在着孔洞边缘分割不连续、分割精度低和参数量大等问题,为解决上述问题,提出了一种基于UNet网络的改进模型—MSHAM-UNet。首先,针对UNet模型对不同尺度特征图的跳级连接带来的语义信息丢失问题,设计了一种结合了HAM双重注意力机制的多尺度融合注意力模块(MSHAM),该模块对带有空间信息的浅层特征图和含有语义信息的深层特征图进行注意力特征融合,增强网络聚合不同尺度信息的能力。其次,使用GP-bneck模块替换部分普通卷积,在降低模型参数量和加深网络的同时,增强网络特征提取能力。实验结果表明,MSHAM-UNet网络在岩心孔洞数据集上的F1-score、IoU和MIoU分别达到了87.35%、77.27%和90.21%,相较于原始模型提高了5.29%%、4.02%和4.84%,对比主流的语义分割模型也有较高提升,为岩心孔隙研究提供了新的思路。 相似文献
17.
提出了一种基于知识图谱(KG)的用户多偏好(MPKG)推荐系统,从用户关系级、实体级和细粒度高阶用户三种不同的视角建模用户的偏好.首先,将KG中关系向量组合,构建关系级意图,并通过独立性将不同意图之间的差异最大化,由关系级意图来指导学习关系级偏好;然后,根据用户交互实体的频率构建实体偏好图(EPG),并学习用户的实体级偏好;接着,分别使用关系级意图和实体级偏好来指导模型学习用户的表示;此外,还直接从KG中构建关系实体信息流,用于用户的表示,挖掘用户的高阶细粒度偏好.在两个基准数据集上进行实验,实验结果验证了该方法的有效性和可行性. 相似文献
18.
针对困难气道气管插管过程中内窥镜图像视角较小、目标尺度变化大、相互遮挡等问题,融合内窥镜图像和CO2浓度信息,提出基于深度学习的多模态气管插管智能目标检测算法。首先,对传统的YOLOv3网络进行改进,利用不同扩张率的空洞卷积构建并行多分支空洞卷积模块,并对输出特征进行上采样和张量拼接;其次,根据多路CO2浓度差异,利用矢量化定位算法定位目标中心位置,校正YOLOv3得到的边界框的中心坐标,提升小目标检测的精度,辅助气道位置的定位;最后,基于该算法,研发了新型多模态气管插管辅助装置初代样机,并在模拟气道中进行实验,验证其可行性。在模拟气道中,该新型辅助装置的操作时间中位数为15.5 s,操作成功率可达97.3%。研究结果表明,基于深度学习的多模态气管插管智能目标检测算法能够有效地辅助气管插管操作。 相似文献
19.
现有群组推荐方法在偏好融合时大多采用预定义策略,这种静态方法忽略了群组间用户的交互,难以对复杂的决策过程进行建模,从而影响推荐效果。针对该问题,提出了一种基于注意力机制的群组推荐方法,使用注意力机制获取群组中每个用户对其他用户的注意力权重,为群组选出一个决策者,以此来模拟群组中用户的交互,再根据用户的加权偏好为群组推荐项目。通过在CAMRa2011和MovieLens1M数据集上与基线方法的对比可知,该方法在命中率和归一化折扣累计增益方面都有较大提高。 相似文献