首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
在商品描述、新闻评论等多模态场景下, 已有复述生成模型只能围绕文本信息生成复述。为了解决其因无法利用图像信息而导致的语义丢失问题, 提出多模态复述生成模型(multi-modality paraphrase generation model, MPG)来引入图像信息, 并用其生成复述。在MPG中, 为了引入与原句对应的图像信息, 首先根据原句构建抽象场景图, 并将与原句相关联的图像区域特征转换为场景图的结点特征。进一步地, 为了利用构建好的场景图来生成语义一致的复述句, 使用关系图卷积神经网络和基于图的注意力机制对图结点特征进行编码和解码。在评测阶段, 提出句对相似度计算方法, 从MSCOCO数据集中筛选出描述图像中相同物体的句对, 并将其作为复述测试集进行评测。实验结果显示, 所提出的MPG模型生成的复述拥有更好的语义忠实度, 表明在多模态场景下图像信息的引入对提高复述生成质量的有效性。  相似文献   

2.
随着在线学习平台的不断应用,大量的数字化资源数据被积累。如何利用资源背后的大数据,为教学资源建设和在线学习者学习提供优化服务,已经成为新的研究热点。本文通过对在线平台数据资源的基本属性和行为属性以及在线用户的行为属性等数据信息进行深层次挖掘,提出了一套资源画像和用户画像构建方法,并在两种画像之间建立关联,从而为教学资源建设和在线用户个性化学习提供数据支持,为在线用户推荐个性化学习资源提供数据基础。  相似文献   

3.
为给定图像自动生成符合人类感知的描述语句是人工智能的重要任务之一。大多数现有的基于注意力的方法均探究语句中单词和图像中区域的映射关系,而这种难以预测的匹配方式有时会造成2种模态间不协调的对应,从而降低描述语句的生成质量。针对此问题,本文提出一种文本相关的单词注意力来提高视觉注意力的正确性。这种特殊的单词注意力在模型序列地生成描述语句过程中强调不同单词的重要性,并充分利用训练数据中的内部标注知识来帮助计算视觉注意力。此外,为了揭示图像中不能被机器直接表达出来的隐含信息,将从外部知识图谱中抽取出来的知识注入到编码器—解码器架构中,以生成更新颖自然的图像描述。在MSCOCO和Flickr30k图像描述基准数据集上的实验表明,本方法能够获得良好的性能,并优于许多现有的先进方法。  相似文献   

4.
如何自动生成图像或视频中空间对象间的空间关系描述是自然语言场景描述乃至图像理解的重要任务之一。针对以往空间关系自然语言描述方法仅考虑整体空间关系描述的问题,该文给出了细节空间关系的概念和表示方法,并基于四叉树直方图模型建立了不同参考框架下的细节空间关系自然语言组合描述方法。采用人工图片作为算例对该方法进行验证,结果表明该方法能够生成符合人类空间认知和描述习惯的细节空间关系自然语言描述语句。  相似文献   

5.
风格迁移是一门将参考图像的风格迁移到目标图像上的技术,但将风格迁移算法应用于写实类照片时,生成的图像却会因为纹理扭曲严重而表现得不真实或是生成的图像整体缺少美感,为了解决此类问题,提出一种基于卷积神经网络的风格迁移算法.首先,为了高效融合不同层信息作为特征表达使生成图像饱满丰富,用聚合方法结合了图像较浅层和较深层的特征;然后,使用全局风格损失和局部风格损失来构建总风格损失项,这样能使生成图像保持风格全局一致性,同时也保留了局部细节信息,其中全局风格损失是由格拉姆矩阵表达,而局部风格损失由马尔科夫随机场表达.为了限制图像结构的变化,将图像变化约束在颜色空间的局部仿射中.还提出一种基于神经网络的语义分割模块来约束图像不同语义区域处的纹理溢出,该模块自动生成输入图像的语义分割映射,节约人为手工构造语义区域的时间.实验结果表明,该方法在不同的风格场景下均能产生真实且美观的图像.  相似文献   

6.
WebSifter:个性化网络搜索辅助系统   总被引:3,自引:0,他引:3  
传统信息检索技术不能很好地满足不同兴趣、不同背景和不同时期用户的查询请求.个性化网络搜索辅助系统WebSifter通过提取用户相关信息对网络搜索结果进行综合、过滤和排序来克服这个问题.系统包括信息采集、行为分析、兴趣集生成、结果生成等模块;利用显性和隐性相结合的方法采集用户兴趣,用线性回归模型分析用户行为;提出了用户兴趣集的多级资源描述模型.它能够动态地抽取用户行为与用户兴趣的关系,并且通过多级资源描述有效地利用用户过去和当前的兴趣来处理搜索结果.  相似文献   

7.
场景图是自然图像的一种结构化描述,有助于提高下游图像理解任务的性能和准确度.场景图的研究是当前计算机视觉和深度学习的重要内容,场景图生成是研究工作的重点和难点.由于数据集的长尾效应导致生成的对象关系准确性存在偏差,严重地限制了场景图的生成质量,所以无偏差场景图得以重视.在介绍视觉关系、场景图和长尾效应三个概念的基础之上,根据无偏差场景图生成流程,将现有的无偏差场景图生成分为数据平衡、无偏差训练、关系推理三种方法.对这三类方法中常见算法的优点和特点进行了总结与分析,对比了算法之间的性能.最后指出,融入外部知识、区分谓词粒度、提高小样本识别能力和构建更加平衡的数据集,是无偏差场景图生成未来研究重点.  相似文献   

8.
针对如何把个性化信息加入到搜索结果排序中, 提出一种基于决策树的可量化用户个性化信息的方法, 并根据用户的搜索关键词与用户的个性化信息, 预测用户的搜索意图, 把预测结果融合在排序结果中, 解决了传统检索模型无法有效加入用户个性化信息的缺陷. 实验结果表明, 加入个性化信息后的排序结果准确性明显提升, 从而改善了用户对搜索引擎的体验.  相似文献   

9.
通用的图像美感研究没有考虑用户之间的审美差异,不能表示用户的个性化审美偏好。为了更有效地表示用户的个性化审美偏好,本研究利用计数网格模型,提出了一种基于个性化生成模板集聚的用户美感表征建模方法,构建起了一个更紧致的用户图像美感表征向量,能更好地描述用户特征。实验结果表明,文中提出的方法构建的用户美感表征方式,在用户识别中可以获得更高的识别率,在用户推荐中也能得到更符合实际情况的推荐结果。  相似文献   

10.
基于解耦常识性关联的图像描述生成算法旨在排除各类实体间常识性关联对模型推理的干扰,提高描述生成的流畅性与准确性.针对当前图像描述生成中存在的符合常识但与图像内容不相符的关系语句,该算法先通过一种新颖的训练方式加强关系检测模型对图像中真实关系的关注程度,提高关系推理的准确性.再通过一种关系感知的实体交互方法,对存在关系的实体进行有针对性的信息交互,对关系信息进行强化.实验表明,该算法能够纠正一些常识性的虚假关系,生成较为准确的图像描述,并在各项评价指标上获得了较好的实验结果.  相似文献   

11.
上网行为日志数据中包含着大量的用户个性化信息,如何充分挖掘和分析这些信息至关重要。在分析上网行为日志数据的重要性后,提出了一种基于上网行为日志用户画像方法。在该方法中,首先通过特征选择和特征提取方式构建用户特征集,然后利用模型堆叠的技术组合多种单一分类器,构建用户画像模型。利用校园网行为日志数据对性别、年级、年龄三个维度进行用户画像,实验结果表明了所提方法的有效性。  相似文献   

12.
提出了一种面向对象的表格图像版面分析方法,引入属性关系图的概念来描述表格版面结构,以表达表格组件间的复杂高维关系.属性关系图中属性的引入一方面可以描述组件的非结构特性,另一方面还可以利用属性来表达一些组件间的约束关系.该方法已应用于实际系统,测试结果表明该方法能够充分表达表格的结构化特点,同时具有相当的灵活性,为表格分析提供了一个实用的接口.  相似文献   

13.
融合用户画像为学习者推荐学习伙伴,有助于解决在线学习者的孤独感问题,提高学习者的参与度和忠诚度。分析学习者特征,从基本信息、学习准备、学习风格、学习行为四个方面设计画像标签,采集网络教学平台数据,进行建模处理,利用相似度区分相似、互补学习者画像,从而为学习者推荐同、异质学习伙伴。实验结果验证了学习者画像和推荐方法的可行性。融合学习者画像推荐学习伙伴的方法更具个性化、动态化等特点,更适合网络教学环境。  相似文献   

14.
针对基于视觉的室内场景三维重建过程中存在三维点云匹配不准确、过程耗时和深度信息部分缺失的问题,提出一种带有深度约束和局部近邻约束的基于RGB-D的室内场景实时三维重建算法.该算法首先利用RGB-D相机采集到的RGB图像做哈里斯角点检测,再用SURF特征点描述方法对检测到的特征点生成64维特征描述子.接着利用特征点集合的深度信息和局部近邻特征点信息作为约束,初步筛选出相邻帧间正确的匹配点对,再结合随机抽样一致性(RANSAC)算法去除外点,以此得到相机的姿态估计.最后利用RGB-D的深度图像,在图优化方法(g2o)的基础上生成三维点云,实现室内场景的三维重建.实验中,RGB-D摄像头装载在自主移动导航的小车上,实时重构的三维场景验证了所提算法的可行性和准确性.  相似文献   

15.
常规基于图像的绘制方法要求多幅图像作为输入或事先已知场景的三维信息才能生成新的图像.而TIP(tour into the picture)技术仅需一幅场景图像便可以生成新的视图,实现三维场景的虚拟漫游.详细介绍和实现了基于TIP的交互建模与漫游,用户可以根据自己对图像的理解,利用鼠标任意设置场景关键点以恢复其三维模型,实现交互式的真实感漫游.  相似文献   

16.
在已知的图像场景深度信息和大气散射模型的基础上,提出了一种基于深度的图像雾效模拟算法。算法引入了最大能见度概念,通过场景深度与雾透射率之间的比例关系将深度图直接转化为透射率图,使用引导滤波对透射率进行优化,最终通过大气散射模型生成雾效模拟图像。实验表明,算法所生成的雾效场景符合空间透射原则,在不同的能见度和大气光结合的条件下可获得变化丰富的有雾效果,具有较强的真实感。  相似文献   

17.
数字在屏幕显示控制核的设计与FPGA实现   总被引:6,自引:0,他引:6  
设计了一种数字在屏幕显示(On Screen Display,OSD)控制核,在水平和垂直扫描信号同步下,根据用户软件设置字符及位图的显示属性,合成OSD图像数据,与输入视频叠加显示.利用现场可编程门阵列(Fied Programmable Gate Array,FPGA)进行验证和性能测试,并通过温度实验,工作稳定可靠.将其应用于一款军用液晶显示器(Liquid Crystal Display,LCD),解决了实际问题.该OSD控制核的特点在于把基于字符和位图的两种OSD图像生成方法融合在一起,功能得到增强,生成了图文信息丰富的OSD图像,串、并行两种用户接口提高了系统兼容性.  相似文献   

18.
提出了一种彩色图像自然场景统计显著图模型,它根据人类视觉系统对图像的处理方式,利用自然场景高斯尺度混合(GSM)统计分布中的乘数随机变量来计算图像灰度通道与彩色拮抗对的显著性描述,将三者的加权平均作为彩色图像的显著图.实验结果表明,彩色拮抗对通道的加入能够有效提高显著图模型与视觉注意力选择机制的一致性.对比不同模型提取的显著图,以及利用公开数据库计算得到的ROC曲线及该曲线下的面积(AUC),均表明本文显著图模型具有显著的优越性.  相似文献   

19.
目标和场景的跨模态数据对于以深度神经网络为基础的跨模态检测与多模态融合算法的性能提升有着极其重大的意义.由于SAR图像的特殊性,获得成对的数据集成本很高,且现有的SAR图像生成算法大多集中在提升图像多样性与小范围场景生成,对于特定场景的图像配对转化鲜有涉及.本文利用改进的循环一致性对抗网络CycleGAN实现SAR图像目标和场景的SAR图像的仿真,并利用最小二乘损失对网络进行改进,使网络性能获得提升,提高了成像的质量,论文所提方法对SAR图像进行了仿真实验,结果表明,本文方法生成图像的精细度与稳定度最优,实现了更好的仿真结果.  相似文献   

20.
提出了基于图像的运动人体在空间变化光照下的重光照技术.基于图像的重光照技术是利用自然环境的光照图像来照亮现实的或计算机生成的场景及物体的一种方法.介绍了基于图像重光照的步骤,在球形采集系统中采集得到基图像序列,加入环境映照图作为场景环境,通过基图像的比例系数与基图像的结合,获得了逼真的多视角运动人体的光照及环境映射图像.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号