首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
在现有的医学影像诊断报告自动生成模型中,仅利用输入图像的视觉特征来提取相应的语义特征,并且生成词之间关联较弱和缺乏上下文信息等问题。为了解决上述问题,提出一种对比增强的关联记忆网络模型,通过对比学习提高模型区分不同图像的能力,设计了注意力增强关联记忆模块根据上一时间步生成的单词来持续更新,以加强生成医学图像报告中生成词之间的关联性,使得本模型可以为医学图像生成更准确的病理信息描述。在公开IU X-Ray数据集和私有胎儿心脏超声数据集上的实验结果表明,提出的模型在Cider评估指标方面明显优于以前的一些模型(与经典的AOANet模型相比较,在IU X-Ray上Cider指标提升了51.9%,在胎儿心脏超声数据集上Cider指标提升了3.0%)。  相似文献   

2.
为给定图像自动生成符合人类感知的描述语句是人工智能的重要任务之一。大多数现有的基于注意力的方法均探究语句中单词和图像中区域的映射关系,而这种难以预测的匹配方式有时会造成2种模态间不协调的对应,从而降低描述语句的生成质量。针对此问题,本文提出一种文本相关的单词注意力来提高视觉注意力的正确性。这种特殊的单词注意力在模型序列地生成描述语句过程中强调不同单词的重要性,并充分利用训练数据中的内部标注知识来帮助计算视觉注意力。此外,为了揭示图像中不能被机器直接表达出来的隐含信息,将从外部知识图谱中抽取出来的知识注入到编码器—解码器架构中,以生成更新颖自然的图像描述。在MSCOCO和Flickr30k图像描述基准数据集上的实验表明,本方法能够获得良好的性能,并优于许多现有的先进方法。  相似文献   

3.
在商品描述、新闻评论等多模态场景下, 已有复述生成模型只能围绕文本信息生成复述。为了解决其因无法利用图像信息而导致的语义丢失问题, 提出多模态复述生成模型(multi-modality paraphrase generation model, MPG)来引入图像信息, 并用其生成复述。在MPG中, 为了引入与原句对应的图像信息, 首先根据原句构建抽象场景图, 并将与原句相关联的图像区域特征转换为场景图的结点特征。进一步地, 为了利用构建好的场景图来生成语义一致的复述句, 使用关系图卷积神经网络和基于图的注意力机制对图结点特征进行编码和解码。在评测阶段, 提出句对相似度计算方法, 从MSCOCO数据集中筛选出描述图像中相同物体的句对, 并将其作为复述测试集进行评测。实验结果显示, 所提出的MPG模型生成的复述拥有更好的语义忠实度, 表明在多模态场景下图像信息的引入对提高复述生成质量的有效性。  相似文献   

4.
针对传统Markov模型中似然函数假设条件过于严格,观测图像像素间的相依关系不能充分利用的缺点,提出了一种基于区域特征的模糊多尺度Markov模型实现纹理图像分割模型.该模型首先利用一种区域特征提取方法,描述像素间的相依关系;然后,以区域特征的聚类结果作为先验信息,通过模糊多尺度Markov模型得到分割结果;最后采用Brodatz纹理库合成的人工图像作为实验数据,从定性和定量两方面验证了该模型的有效性.  相似文献   

5.
基于视频帧间信息特征,提出了基于通道注意力机制的循环残差注意力网络,将连续的低分辨率视频帧、前一时刻输出帧和隐藏态作为输入进行特征提取,在隐藏态中引入残差连接和注意力机制,增强网络特征提取能力,经过亚像素卷积层重建出高分辨率视频帧。然后将本视频超分辨率网络模型在Vid4、UDM10、SPMCS视频数据集进行了测试。实验结果表明,与其他基于深度学习的视频超分辨率方法相比,本方法能利用帧间特征信息较好地恢复高频特征信息,恢复的视频图像PSNR和SSIM值都比其他主流方法要高,同时取得了较好的主观视觉效果。  相似文献   

6.
随着互联网的普及,每天都有海量的图片被传入互联网中。为了能更好地利用这些图片的价值,图像描述生成技术应运而生。提出一种融合自上而下和自下而上注意力的图像描述生成模型。在工作时,该模型分别利用预训练的ResNet101和Faster R-CNN(regions with convolutional neural network)提取输入图片的全局特征和局部特征,并利用自上而下和自下而上注意力分别计算两种特征的权重;利用门控循环单元(gate recurrent unit, GRU)提取一句话中单词之间的上下文语义信息;利用长短期记忆网络(long short-term memory, LSTM)解析图像特征和语义信息并生成描述语句。在训练时,首先以监督学习的方法,训练出基于编码器-解码器框架的一个基础模型;然后再以结合生成式对抗网络和强化学习的方法,在相互对抗中得到不断优化的策略函数和不断完善的奖励机制,从而使生成的句子更加准确、自然。本文模型在COCO数据集上进行训练和测试,最终在评价指标BLEU@1(bilingual evaluation understudy@1)上达到0.675...  相似文献   

7.
糖尿病视网膜病变(Diabetic Retinopathy,DR)是一种致盲率很高的眼科疾病。不同病变等级的视网膜图像之间差异小且病灶点分布无规律。针对现有深度模型对DR中的相似病灶点识别率低,严重影响模型分类精度的问题,本研究以深度学习为基础,构建新的模型架构进行训练,提出一种集成MobileNetV2和EfficientNetB0深度模型的注意力网络:ME-ANet。模型集成分为头部和主干两部分,将深度模型的浅层部分融合构成网络的头部,训练时采用迁移学习的策略对网络模型参数进行初始化,减少训练中的过拟合问题。主干部分利用上述两种模型的核心结构,设计3个阶段集成模块进行特征提取。同时设计全局注意力机制(Global Attention Mechanism,GAM)并分别嵌入到3个阶段的集成模块中。模型的改进加速了网络的收敛速度,该网络模型实现了对图像浅层信息的特征融合提取,减少了微病灶特征信息在训练过程中的卷积丢失问题,模型的分类精度进一步得到改善。通过模型集成构建特征提取主干网络,提高了模型对低级特征信息的学习,注意力机制抑制非病变特征信息,强化典型病灶特征学习,从而实现细粒度分类,进一步提升了模型的分类性能。  相似文献   

8.
特征提取是合成孔径雷达(synthetic aperture radar, SAR)图像自动识别与分类中的重要环节。由于SAR图像有相干斑噪声及几何畸变等特性,一般网络模型难以提取到有判别性的特征。为增强特征提取能力,提高分类准确率,提出将注意力机制与胶囊网络结合的一种注意力胶囊网络模型。注意力机制可聚焦寻找具有重要局部信息的特征,在图像识别过程中抑制干扰特征,定位重要特征。胶囊网络可捕捉图像中目标的位置与空间关系,使提取到的SAR图像特征含有更多便于分类的重要信息。结果表明:文中方法对SAR图像分类数据集中运动和静止目标的获取与识别(moving and stationary target acquisition and recognition, MSTAR)有显著效果。  相似文献   

9.
伴随着纺织品CAD技术的发展,印花图案数量快速增长.快速准确地在企业图库中查找到相似印花图案,对于帮助纺织企业极大程度降低成本,提升生产效率,具有重要意义.本文针对印花图案检索问题,以ResNet为主干网络构建了一个基于特征融合的印花图案检索模型PGLN(Pattern Global and Local feature Network).在该模型中,将全局特征和局部特征进行融合,全局特征使用深度网络的池化特征图,高效地整合输入图像的显著特征;局部特征分支借由注意力机制,使用交互特征层来检测图像的显著性区域.为了验证PGLN模型的有效性,本文在自主构建的印花图案数据集(Pattern)上对PGLN模型的检索效果进行了测试.实验表明,与局部特征提取算法、全局特征提取算法以及融合特征算法相比,PGLN模型在Pattern数据集检索任务上均取得了最优的表现.  相似文献   

10.
针对传统端到端模型在输入文本语义较复杂情况下生成的问题普遍存在语义不完整的情形,提出一种基于语义特征提取的文本编码器架构.首先构建双向长短时记忆网络获得基础的上下文信息,然后采用自注意力机制及双向卷积神经网络模型分别提取语义的全局特征和局部特征,最后设计一种层次结构,融合特征及输入自身信息得到最终的文本表示进行问题生成.在数据集SQuAD上的实验结果表明,基于语义特征提取与层次结构进行问题生成效果显著,结果明显优于已有方法,并且语义特征提取和层次结构在任务的各评价指标上均有提升.  相似文献   

11.
为了建立基于视频行为识别的长时程图像序列的时空信息模型,文章提出了一种嵌入注意力的时空特征融合网络(attention-embedded spatial-temporal feature fusion network, ASTFFN)的深度神经网络模型。ASTFFN将一个包含动作的长时程图像序列分割成多个重叠的片段,并使用一个注意力嵌入特征提取网络(attention-embedded feature extraction network, AFEN)从每个片段中的RGB图像或光流图像中提取经过注意力加权的时空特征,进而融合每个片段的时空加权特征,生成行为识别的视频级预测。基于UCF101和HMDB51行为识别数据库进行了大量的实验,验证了方法的有效性。与目前主流的行为识别算法相比,该文方法在识别精度上取得了较好的效果。  相似文献   

12.
为了更好地在图像描述生成任务中对新概念进行学习和预测,在编码-解码框架下提出了一种新的面向新概念学习的图像描述生成模型(Att-DCC)。该模型引入了带有空间注意力机制的卷积神经网络,将全局视觉特征、语义标签和经空间注意力作用后的视觉信息进行了较好的融合;此外,引入自适应注意力机制多模态层,将语义相近的概念学习结果迁移至新概念,降低训练过程的复杂程度并提升学习性能。采用Att-DCC模型在MSCOCO2014数据集上针对2批(分别为8和6个)共14个新概念进行了测试和分析,结果表明:充分的多模态融合方式和多种注意力机制对于提升学习效果有显著效果;Att-DCC模型在F1值上取得了42.56%和42.14%的平均结果,总体上取得了比具有代表性的NOC模型和DCC模型更准确的预测结果。  相似文献   

13.
采用加强特征提取网络为MobileNetV2的融合多特征金字塔场景解析网络(PSPnet)来实现复杂场景下的图像语义分割.相对于深度残差网络ResNet50和MobileNetV1,引入了线性瓶颈结构和反向残差结构,利用金字塔池化模块(PPM)来处理不同层级的图像特征信息,并将其进行特征拼接,有效避免了不同分割尺寸下,子区域之间关键特征信息的缺失.在此基础上,引入注意力机制模块,结合通道注意力机制(CAM)和空间注意力机制(SAM),进一步提高分割精度.实验结果表明:该方法可以提高图像识别的准确率,并节省训练时间.  相似文献   

14.
为解决人体姿态估计任务中存在的不同视角下人体实例尺度变化、遮挡问题导致的人体关键点定位不准确问题,提出融入二阶注意力机制的多尺度人体姿态估计网络模型GOS-HRNet。首先,在特征提取阶段为了获得高质量的特征图,通过在多分辨率网络结构中使用Octave卷积,保留更多的图像空间特征信息以提高关键点定位准确率;然后,为有效的利用图像上下文信息,融入二阶注意力模块使网络能更好地学习各分辨率表征的空间信息;最后,为了应对尺度变换对关键点定位的影响采用尺度增强训练方法,提高模型对尺度变化的鲁棒性。所提模型在MS COCO 2017数据集上进行实验,结果表明:所提出的GOS-HRNet模型平均检测精度比HRNet模型提升了2.2%,能够更加准确地利用上下文信息、丰富空间特征信息以提高对关键点定位的准确性。  相似文献   

15.
古籍汉字图像检索是古籍汉字研究的有效工具.然而,古籍汉字字形复杂、书写风格多变的特点导致传统文字图像检索技术在应用于古籍汉字图像时效果欠佳.针对现有方法在古籍汉字图像特征提取时存在的字形结构细节信息和低层视觉特征提取问题,设计了一种融合空间注意力和通道注意力网络高低层特征的古籍汉字图像检索模型.首先,融合空间注意力的低维特征和通道注意力的高维特征,捕捉古籍汉字空间结构间的依赖关系,提取更丰富的古籍汉字语义特征信息;其次,构建inception残差结构模块,丰富古籍汉字图像特征的感受野,使网络模型更易优化,保留足够的古籍汉字细节信息;最后,运用加权交叉熵损失函数,解决数据集中存在的正负样本不平衡问题,增强检索模型的鲁棒性.在上下、左右、包围和独体结构古籍汉字图像数据集上检索实验的MAP(mean average precision)值分别为77.89%、79.89%、78.21%、80.75%,表明了方法的有效性.  相似文献   

16.
针对细粒度图像分类中数据分布具有小型、非均匀和不易察觉类间差异的特征,提出一种基于注意力机制的细粒度图像分类模型.首先通过引入双路通道注意力与残差网络融合对图像进行初步特征提取,然后应用多头自注意力机制,达到提取深度特征数据之间细粒度关系的目的,再结合交叉熵损失和中心损失设计损失函数度量模型的训练.实验结果表明,该模型在两个标准数据集102 Category Flower和CUB200-2011上的测试准确率分别达94.42%和89.43%,与其他主流分类模型相比分类效果更好.  相似文献   

17.
针对合成孔径雷达图像中舰船目标检测困难的问题,提出了一种基于深层次特征增强网络的多尺度目标检测框架.利用Darknet53提取原始图像特征,自上而下建立四尺度特征金字塔;特别设计基于注意力机制的特征融合结构,自下而上衔接相邻特征层,构建增强型特征金字塔;利用候选区域及其周边上下文信息为检测器计算分类置信度和目标分数提供更高质量的判定依据.所提算法在SSDD公开数据集和SAR-Ship自建数据集上的平均检测精度分别为94.43%和91.92%.实验结果表明,该算法设定合理且检测性能优越.   相似文献   

18.
针对目前细粒度图像分类算法存在的局部区域特征捕捉不全面的问题,在B-CNN算法基础上提出了一种基于注意力机制的细粒度图像分类算法。首先利用数据增强的6种方式对训练数据集进行扩充,然后在B-CNN算法的特征提取中引入注意力机制,使用卷积注意力模块CBAM精准获取图像局部区域特征,最后融合特征进行分类。改进后的算法分别在CUB-200-2011和Stanford Cars两个数据集上进行实验,与当前先进算法比较,所提算法提高了细粒度图像的分类效果。  相似文献   

19.
复杂相似性图像检索系统体系结构   总被引:2,自引:0,他引:2  
研究了一种支持复杂相似性查询的图像检索系统体系结构、提出了处理复杂相似性查询的技术,构造出一个高效的图像检索系统。图像的内容由三种特征来定义:可量化的可视化信息特征、非量化描述的语义信息特征和包含更抽象语义信息的关键字特征。用记可以根据上述特征对图像数据库进行各种简单到复杂的查询、利用面向对象的注释描述模型实现图像的高层语义内容索引,利用特征提取方法可以对图像模型中的可视化定量特征建立索引。  相似文献   

20.
现有的基于深度学习和神经网络的日志异常检测方法通常存在语义信息提取不完整、依赖日志序列构建和依赖日志解析器等问题.基于注意力机制多特征融合和文本情感分析技术,提出了一种日志异常检测方法 .该方法首先采用词嵌入方法将日志文本向量化以获取日志消息的词向量表示,接着将词向量输入到由双向门控循环单元网络和卷积神经网络组成的特征提取层中分别提取日志消息的上下文依赖特征和局部依赖特征,使用注意力机制分别加强两种特征中的关键信息,增强模型识别关键信息的能力.使用基于注意力机制的特征融合层为两种特征赋予不同权重并加权求和后输入由全连接层构成的输出层中,实现日志消息的情感极性分类,达到日志异常检测的目的 .在BGL公开数据集上的实验结果表明,该模型的分类准确率和F1值分别达到了96.36%和98.06%,与同类日志异常检测模型相比有不同程度的提升,从而证明了日志中的语义情感信息有助于异常检测效果的提升,并且经过实验证明了使用注意力机制的模型可以进一步提高文本情感分类效果,进而提升日志异常检测的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号