首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 79 毫秒
1.
最近几年在深度学习领域中,自动生成一副图像的自然语言描述引发了学界的广泛关注,原因是图像描述在实际应用中的重要性以及它连接了两个重要的人工智能领域:计算机视觉和自然语言处理.以往的模型大多采用基于模板或简单的编码-解码方式,生成的文本结构较为单一并且不能够根据图像中各个物体的相互关系表达出图像的深层意义.提出了一种基于注意力机制与多模态的图像描述方法,在LSTM(Long-Short Term Memory)的基础上改进了Attention机制,并在Attention结构后面添加了多模态层对图像的上下文特征信息以及LSTM的隐层状态进行融合处理.在两个公共数据集:MS COCO以及Flickr 30K上进行验证,实验结果证明所提方法有效且可以使生成的描述语句更加丰富.  相似文献   

2.
视觉问答作为多模态任务,需要深度理解图像和文本问题从而推理出答案。然而在许多情况下,仅在图像和问题上进行简单推理难以得到正确的答案,事实上还有其他有效的信息如图像描述、外部知识等可以被利用。该文提出了利用图像描述和外部知识增强表示的视觉问答模型。该模型以问题为导向,基于协同注意力机制分别在图像和其描述上进行编码,并且利用知识图谱嵌入,将外部知识编码到模型当中,丰富了模型的特征表示,增强了模型的推理能力。在OKVQA数据集上的实验结果表明,该方法相比基线方法有1.71%的准确率提升,与已有的主流模型相比也有1.88%的准确率提升,证明了该方法的有效性。  相似文献   

3.
为了解决密集型视频描述(dense video captioning, DVC)任务中视频特征利用不充分,视频定位分段不准确,语义描述效果不丰富的问题,采用多模注意力机制的密集型视频描述方法,提取视频中的视觉特征、音频特征和语音特征.通过多模注意力机制,在编码器中计算不同模态视频帧特征间的关联程度,在解码器中计算描述词序列特征与编码器输出的多模态视频帧特征间的关联程度,并将编码器、解码器输出特征分别作用于视频定位分段模型和语义描述模型获得视频分段和分段描述.提出的方法在ActivityNet Captions数据集上进行了理论分析和实验验证,其中F1-score达到60.09,METEOR指标达到8.78.该方法有效提高了视频定位分段和语义描述的准确性.  相似文献   

4.
基于色彩描述的图像情感语义查询   总被引:1,自引:0,他引:1  
针对图像视觉特征、中间层语义和高层情感语义之间的语义鸿沟,以色彩为代表,提出了图像情感语义查询的框架.在该框架下,利用图像色彩分割结果,通过定义描述色彩语义的自然语言词汇,设计了基于模糊隶属函数的图像色彩语义描述方法,并在此基础上定义了一种查询语言,将人类对图像内容理解的经验与图像色彩语义描述联系起来,实现了图像高层情感语义的查询.实验结果表明,该方法为图像语义研究提供了一种可行的、有效的、可扩展的解决方案.  相似文献   

5.
钟维幸  王海荣  王栋  车淼 《广西科学》2022,29(4):681-690
针对现有多模态命名实体识别(Multimodal Named Entity Recognition, MNER)研究中存在的噪声影响和图文语义融合不足问题,本文提出一个多模态语义协同交互的图文联合命名实体识别(Image-Text Joint Named Entity Recognition, ITJNER)模型。ITJNER模型加入图像描述作为额外特征丰富了多模态特征表示,图像描述可以帮助过滤掉从图像特征中引入的噪声并以文本形式总结图像语义信息;还构建了多模态协同交互的多模态语义融合模型,可以加强多模态信息融合,并减少图像信息的语义偏差。在Twitter-2015和Twitter-2017数据集上进行方法实验,分析实验结果并与AdaCAN、UMT、UMGF、Object-AGBAN等方法进行对比。相较于对比方法中的最优方法UMGF,本方法在Twitter-2017数据集上的准确率、召回率、F1值分别提高了0.67%、2.26%、0.93%;在Twitter-2015数据集上,召回率提高了0.19%。实验结果验证了本方法的有效性。  相似文献   

6.
卷积神经网络中的卷积操作只能捕获局部信息,而Transformer能保留更多的空间信息且能建立图像的长距离连接.在视觉领域的应用中,Transformer缺乏灵活的图像尺寸及特征尺度适应能力,通过利用层级式网络增强不同尺度建模的灵活性,且引入多尺度特征融合模块丰富特征信息.本文提出了一种基于改进的Swin Transformer人脸模型——Swin Face模型.Swin Face以Swin Transformer为骨干网络,引入多层次特征融合模块,增强了模型对人脸的特征表达能力,并使用联合损失函数优化策略设计人脸识别分类器,实现人脸识别.实验结果表明,与多种人脸识别方法相比,Swin Face模型通过使用分级特征融合网络,在LFW、CALFW、AgeDB-30、CFP数据集上均取得最优的效果,验证了此模型具有良好的泛化性和鲁棒性.  相似文献   

7.
8.
在金矿研磨过程中,矿石粒度大小对后期黄金冶炼起着至关重要的作用,是一个不可忽略的关键参数。为解决图像分割中多数矿石表面不规则、棱角多,粘连等问题,通过结合注意力与多尺度空洞卷积的Vit Transformer模型研究了矿石图像分割。首先使用ResNet34作为下采样主干,增强对金矿石的特征提取能力;其次采用Transformer模块解决长距离依赖问题,融合复合通道注意力空洞模块提升网络对金矿石边缘特征的提取能力,提高了网络的抗干扰能力并扩大感受野。实验结果表明:本文算法准确率达到95.84%,Dice系数达到94.69%,交并比(IoU)达到90.39%,错误率低至7.83%。与其他算法对比,本文方法精度、Dice系数、IoU更高,可以较好地完成矿石图像分割任务。  相似文献   

9.
针对可见光和合成孔径雷达(SAR: Synthetic Aperture Radar)图像融合问题, 在图像预处理基础上, 从像素级特征、纹理级特征及边缘轮廓特征等多模态入手, 优化现有同源图像的配准融合算法。利用改进的SURF(Speeded Up Robust Features)算子、纹理分析及轮廓提取算法, 获取待融合图像的多模态和多尺度特征。通过模糊尺度标准化, 使异源图像特征对能更好地适应特征间的差异性, 从而能进行相似性的比较, 结合模糊相关系数法, 确保配准融合的精度, 实现光鄄SAR 图像信息的有效融合。与传统配准融合方法进行比较的实验结果表明, 该算法可提高光鄄SAR 配准的精度和适应性, 使配准融合的平均准确率达到87. 7%, 可满足较高精度的配准融合需求。  相似文献   

10.
11.
岩屑的岩性识别是地质工作中的一项重要内容。为解决传统人工鉴别岩性的低效问题和传统机器识别的低可靠性问题,提出一种融合图像特征与图像外特征的岩性识别方法。首先采集岩屑的高分辨率图像,使用Xception特征提取器对图像特征进行提取并降维为一维向量,提高模型抽象特征敏感性并防止网络退化问题。同时量化岩屑的物理化学特征如:与盐酸反应程度、含矿物纯度、元素分析结果、硬度等,构建图像外特征向量。融合图像特征向量与图像外特征向量为总特征向量,构建神经网络与分类器进行训练,产生岩性识别模型。该模型相较于仅图像训练模型,在高质量岩屑图像数据集上提高3.45个百分点,在低质量岩屑图像数据集上提高20.92个百分点。该模型结合了传统录井与机器学习的优势,为建立可靠岩性剖面与实现数字化岩屑录井提供了更为高效的方法。  相似文献   

12.
为充分提取3D点云的深层特征以提高复杂室内点云场景的语义分割精度,提出一种结合局部特征和全局特征的室内点云语义分割网络GSFNet.在局部特征部分,加入几何特征信息,并设计几何与语义特征信息编码模块,以更好地捕获室内点云局部信息.对全局特征部分,在编码解码器结构中间层加入全局关系依赖模块,构建不同邻域对象之间的关系提取有效分割信息.使用斯坦福大规模室内数据集(S3DIS)进行实验验证,在测试数据集上测试的总体精度(OA)和平均交并比(mIoU)分别为87.2%和61.1%,实验结果表明,GSFNet对复杂室内环境有较好的语义分割效果.  相似文献   

13.
Image captioning models typically operate with a fixed vocabulary, but captioning is an open-vocabulary problem. Existing work addresses the image captioning of out-of-vocabulary words by labeling it as unknown in a dictionary. In addition, recurrent neural network(RNN) and its variants used in the caption task have become a bottleneck for their generation quality and training time cost. To address these 2 essential problems, a simpler but more effective approach is proposed for generating open-vocabulary caption, long short-term memory(LSTM) unit is replaced with transformer as decoder for better caption quality and less training time. The effectiveness of different word segmentation vocabulary and generation improvement of transformer over LSTM is discussed and it is proved that the improved models achieve state-of-the-art performance for the MSCOCO2014 image captioning tasks over a back-off dictionary baseline model.  相似文献   

14.
为了从文本中可以更加准确地分析其蕴含的内容,给人们的生产生活提供建议,在基于深度学习的传统多标签分类方法的基础上,提出一种融合多粒度特征和标签语义共现的多标签分类模型。该模型利用双向长短时记忆网络双向长短时记忆网络(bidirectional long short-term memory network, Bi-LSTM)提取多粒度的文本特征,获得不同层次的文本特征;并通过计算pmi的方式构建标签关系图,利用图卷积网络(graph convolution network, GCN)深入提取标签的隐藏关系,获得具有标签信息的文本表示;最终融合多粒度文本特征,进行多标签文本分类。在AAPD和news数据集上进行实验。结果表明:所提出模型的Micro-F1值分别达到0.704和0.729,验证了模型的有效性。  相似文献   

15.
红细胞形态特征的计算机图像处理研究   总被引:2,自引:1,他引:2  
比较传统人工细胞形态观察和定量的操作方式,介绍了基于计算机图像处理和分析技术的有关红细胞形态特征定量的研究成果.并且展现了一套适用范围广、可作为红细胞图像的形态描述或细胞分类的图形特征参数——圆周率.同时,基于圆周率提供了一些较为适用的细胞形态特征值的算法(比如,多定位的图像获取、红细胞胞体形态的自动识别,以及对其进行的分类算法).红细胞形态的算法或程序都基于VC ,不过该程序也可运用于其他用途.红细胞的染色采用瑞氏法(亚甲基蓝咿红).介绍的红细胞形态计算机处理方法可提供有效的半自动红细胞形态特征的统计分析,可描述出群体细胞形态特征的分布曲线或不同细胞形状比率的数据.  相似文献   

16.
图像灰度熵特征与SVM分类结合的人脸检测   总被引:2,自引:0,他引:2  
提出了一种基于支持向量机并综合图像灰度值和灰度熵的人脸检测方法.在信息论的编码熵的基础上提出了灰度熵的概念,并把人脸图像的行像素灰度熵和列像素灰度熵作为人脸图像的部分特征.在人脸检测系统中,把人脸图像的灰度值和行像素灰度熵和列像素灰度熵作为特征用支持向量机进行训练,得到检测用分类模型,然后把分类模型应用于人脸检测.实验证明了这种方法的有效性。  相似文献   

17.
提出了一种基于支持向量机并综合图像灰度值和灰度熵的人脸检测方法.在信息论的编码熵的基础上提出了灰度熵的概念,并把人脸图像的行像素灰度熵和列像素灰度熵作为人脸图像的部分特征.在人脸检测系统中,把人脸图像的灰度值和行像素灰度熵和列像素灰度熵作为特征用支持向量机进行训练,得到检测用分类模型,然后把分类模型应用于人脸检测.实验证明了这种方法的有效性.  相似文献   

18.
提出了一种针对软组织肉瘤转移性预测的辅助诊断方法,该方法通过对患者的FDG-PET和CT诊断图像进行纹理特征分析,共提取了105个特征,其中包括灰度共生矩阵的24个特征和其他81个灰度等级的特征,分别利用支持向量机、K近邻和随机森林等机器学习算法建立预测模型,并采用网格搜索法对其参数进行优化.最后使用留一交叉验证法对各...  相似文献   

19.
The paper presents a fast algorithm for image retrieval using multi-channel textural features in medical picture archiving and communication system (PACS). By choosing different linear or nonlinear operators in prediction and update lifting step, the linear or nonlinear M-band wavelet decomposition can be achieved in M-band lifting. It provides the advantages such as fast transform, in-place calculation and integer-integer transform. The set of wavelet moment forms multi-channel textural feature vector related to the texture distribution of each wavelet images. The experimental results of CT image database show that the retrieval approach of multi-channel textural features is effective for image indexing and has lower computational complexity and less memory. It is much easier to implement in hardware and suitable for the applications of real time medical processing system.  相似文献   

20.
配电变压器加装平衡线圈可以限制正、逆变换过电压,本文通过理论分析探讨了平衡线圈应该采用的接线方式及其优越性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号