首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 250 毫秒
1.
知识图谱也被称为科学知识图谱,可以揭示复杂知识领域的动态发展规律.基于自然语言处理技术从海量Web数据中抽取命名实体及命名实体关系,从而构建企业知识图谱.设计并实现了一种基于知识图谱的可视化分析方法,在网络图中融入集合可视化,从全局和细节两个层次进行可视分析,构建了企业知识图谱可视化分析平台.通过案例分析表明,该可视化研究方法满足用户对相关数据的可视化分析.  相似文献   

2.
目前知识图谱实体对齐的主流方法是通过图神经网络学习知识图谱的嵌入表示,并测量实体嵌入之间的相似性实现实体的对齐.很多实体对齐方法只考虑知识图谱的结构信息和关系信息,却常常忽略了属性信息.针对上述问题,提出了一种融合属性嵌入的实体对齐方法:融合属性信息的精简关系感知双图卷积网络模型.首先,基于关系感知双图卷积网络的注意力机制提取知识图谱的关系信息;然后,利用带高速门的图卷积网络获取属性信息;最后,融合二者的嵌入信息以实现更高准确率的实体对齐.在3个跨语言数据集上的实验结果表明,该方法通过融合知识图谱属性信息增强了实体表示能力,在3个数据集上Hits@1值相比原模型分别增长了6.42%、4.59%和1.98%,对齐效果明显优于目前主流的实体对齐方法.  相似文献   

3.
目前网络上关于辽代历史信息化智能查询服务系统资源相对缺乏,关于辽代历史介绍文本篇幅冗长,不方便大众进行阅读观看.为了便于大众能更加快速准确了解相关的辽代历史知识,基于百度百科、搜狗百科以及基于爬虫技术等形式获取了与辽代历史相关的文本数据,采用BiLSTM-CRF模型进行实体抽取,通过关系抽取模型抽取实体间的关系,通过知识融合等技术对得到的数据进行实体对齐以及本体构建.最终构建辽代历史文化领域知识图谱,并在此知识图谱的基础上开发了可视化查询系统.  相似文献   

4.
在大规模文本语料库上预先训练的BERT等神经语言表示模型可以很好地从纯文本中捕获丰富的语义信息.但在进行中文命名实体识别任务时,由于中文命名实体存在结构复杂、形式多样、一词多义等问题,导致中文命名实体识别效果不佳.考虑到知识图谱可以提供丰富的结构化知识事实,从而更好地进行语言理解,提出了一种融合知识图谱信息的中文命名实体识别方法,通过知识图谱中的信息实体增强语言的外部知识表示能力.实验结果表明,与BILSTM-CRF、BERT等方法相比,所提出的方法有效提升了中文命名实体的识别效果,在MSRA与搜狐新闻网标注数据集上,F1值分别达到了95. 4%与93. 4%.  相似文献   

5.
面对相对复杂的互联网信息,知识图谱能够将其表达成更加便于理解的形式,通过可视化技术加以显示并提供有价值的参考.但伴随数据实体及实体关系的快速扩增,知识图谱的稀疏性和连通性不足等问题日趋凸显.提出一种基于路径分析和关系描述的知识图谱补全方法,并以泛娱乐领域相关数据为例,对该方法的有效性进行验证.构建基于泛娱乐知识特点的泛娱乐领域知识图谱,并在该知识图谱上进行验证实验.实验结果表明,提出的方法能够很好地推理出知识图谱中的隐含与遗漏路径,有效地实现知识图谱补全,从而发现具有丰富价值的隐含知识.  相似文献   

6.
与现有的根据知识图谱的结构信息或实体属性特征进行相似度匹配的实体对齐的方法不同,提出了一种基于表示学习的知识图谱实体对齐方法.首先,在低维向量空间下,通过机器学习方法学得实体和关系的语义表示,这种表示形式蕴含了知识图谱的内在结构信息及实体属性特征;其次,将人工标注的实体对作为先验知识,学习知识图谱间实体对的映射关系.经实验验证表明:与基于特征匹配的方法SiGMa相比,本文方法能够有效提高知识图谱实体对齐的精确率,同时保持较高的F1值.  相似文献   

7.
近十年来,通过社交网络(如微博、推特)分享信息已经成为人们日常生活中不可缺少的一个环节,如何有效地预测信息传播的影响力成为社交网络研究中的重要课题,不论是识别病毒式营销和虚假新闻还是精确推荐和在线广告都有许多应用.目前,一些应用深度学习进行社交网络影响力预测的方法已经取得了一定进展,但在进行深度学习时仍会面临以下难点:用户通常具有不同的行为和兴趣并且他们同时通过不同的渠道进行互动;用户之间的关系难以检测和形式化表达.传统的社交网络影响力预测方法通过设计复杂的规则来手动提取用户及其所处网络的特征信息,这一方法的有效性严重依赖于设置规则的专业性,所以很难将某一领域的规则推广到其他领域的应用中去.基于深度神经网络模型,设计一种端到端的神经网络来学习用户的隐藏特征信息以预测其社交网络影响力.首先通过图嵌入的方式对用户的局部网络进行特征提取,然后将特征向量作为输入对图神经网络进行训练,从而对用户的社会表征进行预测.该方法的创新之处:运用图卷积和图关注方法,将社交网络中用户的特征属性和其所处局域网络特征相结合,大大提高了模型预测的精度.通过在推特、微博、开放知识图谱等数据集上的大量实验,证明该方法...  相似文献   

8.
在线社交网络的飞速发展对社交网络用户的隐私保护提出了新的挑战.通过使用社会网络分析、决策分析理论和实证研究的方法,建立了一种用户隐私向量模型,从而实现对社交网络中用户隐私保护状况的量化分析.并在此基础上以新浪微博为研究对象,通过微博用户的真实数据进行实证分析.研究结果表明:用户隐私量值对用户的行为有重要影响,真实社交网络中大部分用户的隐私关注程度较低,高隐私关注群体和低隐私关注群体的比例较小,用户的私信和地理位置信息的分享行为受用户的隐私关注情况影响大.研究结果对社交网络用户的隐私保护、社交网络中用户行为规律的研究具有参考意义.  相似文献   

9.
在大规模文本语料库上预先训练的BERT(bidirectional encoder representation from transformers, BERT)等神经语言表示模型可以较好地从纯文本中捕获丰富的语义信息。但在进行中文命名实体识别任务时,由于命名实体存在结构复杂、形式多样、一词多义等问题,识别效果不佳。基于知识图谱可以提供丰富的结构化知识,从而更好地进行语言理解,提出了一种融合知识图谱信息的中文命名实体识别方法,通过知识图谱中的信息实体增强语言的外部知识表示能力。实验结果表明,与BERT、OpenAI GPT、ALBERT-BiLSTM-CRF等方法相比,所提出的方法有效提升了中文命名实体的识别效果,在MSRA(Microsoft Research Asia, MSRA)与搜狐新闻网标注数据集上,F_1值分别达到了95.4%与93.4%。  相似文献   

10.
何巍 《科学技术与工程》2020,20(32):13085-13090
社交媒体的出现为人类提供了新的交流方式,同时也产生了大量的数据。这些数据蕴含着丰富的信息,也反映了人类的社会行为。利用可视化分析技术可以对社交媒体数据进行交互式分析,提高人类对抽象信息的理解和综合研判能力。本文首先介绍了可视化分析的步骤。在此基础上,阐述了社交网络可视化、时空信息可视化和文本可视化的实现方式。最后,对可视化分析过程中遇到的问题和挑战进行了讨论。  相似文献   

11.
随着信息技术发展,设备健康数据与知识图谱技术结合为设备健康发展带来新的发展机遇,知识图谱利用其多种特异性优势,使企业系统中积累的海量设备维修数据得到有效整合利用.本文提出基于知识图谱的核电设备健康管理知识建模与分析方法,并根据实体关系模型构建维修知识图谱本体框架,同时基于核电企业实际的维修工单数据,从统计分析和关联分析两方面取得良好的实践效果.研究结果表明,知识图谱能够在设备维修知识的集成上解决传统的数据孤岛问题,同时能基于故障的可视化分析为维修人员和管理人员提供决策和知识支持.  相似文献   

12.
在新闻推荐场景下,传统的基于文本特征的新闻推荐模型只考虑了词的共现关系,无法捕获词语的隐含词义和关联知识;而基于深度学习的推荐模型在融合知识图谱信息中仅仅考虑实体的信息,忽略了远距离实体之间的联系,造成实体之间的关联信息和深层次语义联系的缺失.针对该问题提出了一种基于知识增强的深度新闻推荐网络(deep knowledge-enhanced network,DKEN),利用长短期记忆网络提取知识图谱中的实体路径特征,补充到注意力网络中,然后针对不同的候选新闻动态地构建用户的特征.实验表明该实体路径信息能提高模型的效果,在F1指标上提升大约1%.   相似文献   

13.
信息可视化研究综述   总被引:4,自引:0,他引:4       下载免费PDF全文
信息可视化是可视化技术在非空间数据领域的应用,可以增强数据呈现效果,让用户以直观交互的方式实现对数据的观察和浏览,从而发现数据中隐藏的特征、关系和模式。可视化应用非常广泛,主要涉及领域:数据挖掘可视化、网络数据可视化、社交可视化、交通可视化、文本可视化、生物医药可视化等等。根据CARD可视化模型可以将信息可视化的过程分为以下几个阶段:数据预处理;绘制;显示和交互。根据SHNEIDERMAN的分类,信息可视化的数据分为以下几类:一维数据、二维数据、三维数据、多维数据、时态数据、层次数据和网络数据。其中针对后4种数据的可视化是当前研究的热点。多维数据可视化方法主要包括基于几何的方法、图标方法和动画方法等。基于几何的可视化方式中最经典的就是"平行坐标系"方法。平行坐标系(parallel coordinates)使用平行的竖直轴线来代表维度,通过在轴上刻划多维数据的数值并用折线相连某一数据项在所有轴上的坐标点展示多维数据。平行坐标系方法能够简洁、快速地展示多维数据,发展出很多改进技术。但是当数据集的规模变得非常大时,密集的折线会引起"视觉混淆"(visual clutter),处理方法包括维度重排、交互方法、聚类、过滤、动画等。其他基于几何的方法包括Radviz方法使用圆形坐标系展示可视化结果;散点图矩阵(scatter plot matrix)将多维数据中的各个维度两两组合绘制成一系列的按规律排列的散点图。基于图标的可视化方法用具备可视特征的几何形状如大小、长度、形状、颜色等刻划数据,代表性的方法包括星绘法和Chernoff面法等。动画方法用于可视化中可被用来提高交互性和理解程度,其缺点包括可能分散注意力、引起用户的误解、产生"图表垃圾"等。时间序列数据是指具有时间属性的数据集,针对时间序列数据的可视化方法如下:线形图、堆积图、动画、地平线图、时间线。层次数据具有等级或层级关系。层次数据的可视化方法主要包括节点链接图和树图2种方式。其中树图(treemap)由一系列的嵌套环、块来展示层次数据。为了能展示更多的节点内容,一些基于"焦点+上下文"技术的交互方法被开发出来。包括"鱼眼"技术、几何变形、语义缩放、远离焦点的节点聚类技术等。网络数据具有网状结构。自动布局算法是网络数据可视化的核心,目前主要有以下3类:一是力导向布局(force-directed layout);二是分层布局(hierarchical layout);三是网格布局(grid layout)。当数据节点的连接很多时,容易产生边交叉现象,导致视觉混淆。解决边交叉现象的集束边(edge bundle)技术可以分为以下几类:力导向的集束边技术、层次集束边技术、基于几何的边聚类技术、多层凝聚集束边技术和基于网格的方法等。其他研究热点包括图形的视觉因素研究、自适应可视化研究、可视化效果的评估等。视觉因素对于可视化效果的影响,如位置、长度、面积、形状、色彩等影响已经引起很多研究者的注意。色彩是视觉因素的重要组成部分,研究主要集中在颜色选择的原则和交互系统中。这些原则基于数据类型、类的数量、认知约束等。自适应可视化可以提高信息可视化的适应性。研究成果分为以下几类:自适应可视化展示、自适应资源模型、自适应用户模型。自适应可视化展示是指根据用户的特征自动为用户提供多种展示类型,自动选择可视化内容及布局的形式,自动调整可视化的元素等。自适应资源模型反映了对硬件和软件的利用以提高可视化性能。自适应用户模型通过显示用户模型的内容并让用户能够编辑,从而让用户能够控制模型的内容。当前关于信息可视化评价的研究较少,少量研究也没有提出直接和通用的可视化的评估方式,需要对信息可视化评价的理论基础、方法和应用做深入的研究。可视化技术与应用还应该继续向以下4个方面努力:直观化、关联化、艺术化、交互化。信息可视化技术的发展方向是协同(collaboration)、分析过程(analytics)、计算(computational)和意会(sense-making)。未来研究方向可以包括以下几个内容。信息可视化和数据挖掘的紧密结合。为提高处理海量数据时的速度和效率和解决视觉混淆现象;必须运用数据挖掘的公式和算法,对数据分析的过程及结果进行可视化展现。协同可视化。协同可视化领域的研究方向可以包括可视化接口设计、基于Web的可视化协同平台开发、协同可视化工作的视图设计、协同可视化中的工作流管理及协同可视化技术的应用等。更多领域的应用技术开发。包括统计可视化:需要研究使用几何、动画、图像等工具对数据统计的过程和结果进行加工和处理的技术;新闻可视化:对新闻内容进行抓取、清洗和提取和可视化展示;社交网络可视化:可视化方式显示社交网络的数据,对社交网络中节点、关系及时空数据的集成展示。搜索日志可视化:针对在使用搜索引擎时产生的海量搜索日志,可视化的展现用户的搜索行为、关系和模式等。  相似文献   

14.
针对传统协同过滤算法存在使用信息单一、基础评分数据过于稀疏导致推荐效果不佳等问题,该文提出一种结合知识图谱进行信息强化的协同过滤(KGRI-CF)算法.该算法利用电影的特征数据构建1张关于电影的知识图谱,对用户-评分矩阵进行有条件的填充,有效改善了传统协同过滤算法的数据稀疏性问题.通过对评分数据进行统计与挖掘获取用户的偏好信息,构建了关于用户偏好的知识图谱.利用实体向量化算法将知识图谱中的实体以及关系向量化后计算出用户信息相似度,将其与基于用户的传统协同过滤算法得到的用户评分相似度以一定比例进行融合,从而得到最终的用户相似度,并以此为基础进行评分预测并得到推荐列表.实验结果表明:与传统协同过滤算法相比,该算法能有效地改善数据稀疏性问题,预测结果的精准率和召回率均有显著提升,同时具有较好的可解释性.  相似文献   

15.
为提高网络域名系统(domain name system, DNS)服务器日志分析能力,综合多种技术提出了构建面向域名解析系统的知识图谱。首先,应用域名解析、权威域名服务器、别名解析、自治系统等基本原理设计了基于aiohttp和dig技术相结合的数据采集方案,构建了相应的领域知识库;其次基于该知识库设计和构建了面向域名解析系统的知识图谱,其节点规模达近500万;然后应用该知识图谱解决web日志中异常访问行为识别效果差的实际问题。以某国家网络信息安全科研机构的网络服务器日志为研究对象,对比是否采用知识图谱进行实验:在爬虫行为、域名暴力解析行为、DNS重复解析行为的识别实验中,F1值分别提高了14.88%、47.23%和91.63%。结果表明,该知识图谱能够有效提高web日志中异常行为识别率。  相似文献   

16.
在入侵检测系统中引入图论的相关理论并提出了一种基于图论的入侵检测方法,将数据对象之间相似度的关系转换到图论的邻接矩阵中,再将邻接矩阵转换为关联矩阵,以表示数据对象之间的相似关系.利用最速下降法求得最佳的转换矩阵,以完成关联矩阵的块对角矩阵转换而达到数据聚类效果和鉴别出正常数据与入侵攻击数据的类别.同时,利用KDD CUP 1999数据集对系统进行仿真.结果表明,所提出的入侵检测方法能够在很低误警率的情况下达到比模糊C均值聚类算法更高的检测率.  相似文献   

17.
基于CNN-BLSTM的食品舆情实体关系抽取模型研究   总被引:1,自引:0,他引:1  
食品舆情实体关系抽取是构建食品舆情知识图谱的关键技术,也是当前信息抽取领域的重要研究课题。针对食品舆情中常出现的实体对多关系问题,在卷积神经网络(convolutional neural network,CNN)中引入基于位置感知的领域词语义注意力机制;在双向长短时记忆(bidirectional long short-term memory,BLSTM)网络中引入基于位置感知的语义角色注意力机制,构建基于CNN-BLSTM的食品舆情实体关系抽取模型。在食品舆情数据集上进行了对比实验,实验结果表明:基于CNN-BLSTM的食品舆情实体关系抽取模型在食品舆情数据集上准确率比常用的几种深度神经网络模型高出8.7%~13.94%,验证了模型的合理性和有效性。  相似文献   

18.
信息科学研究的具体对象都是信息现象占主导地位的事物,这类事物一般都处于高级的运动形式,不能完全依靠传统的自然科学方法论来解决问题,应当从信息的观点出发,通过分析该事物所包含的信息过程来揭示它的复杂工作机制的奥秘.由于信息科学的掘起,以物质和能量为中心观念的传统科学就逐渐让位于以物质、能量和信息为中心观念的现代科学.不仅如此,信息科学的概念、理论和研究方法还远远超越了自然科学的边界,向社会科学的各个领域广泛渗透.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号