首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 687 毫秒
1.
目前知识图谱实体对齐的主流方法是通过图神经网络学习知识图谱的嵌入表示,并测量实体嵌入之间的相似性实现实体的对齐.很多实体对齐方法只考虑知识图谱的结构信息和关系信息,却常常忽略了属性信息.针对上述问题,提出了一种融合属性嵌入的实体对齐方法:融合属性信息的精简关系感知双图卷积网络模型.首先,基于关系感知双图卷积网络的注意力机制提取知识图谱的关系信息;然后,利用带高速门的图卷积网络获取属性信息;最后,融合二者的嵌入信息以实现更高准确率的实体对齐.在3个跨语言数据集上的实验结果表明,该方法通过融合知识图谱属性信息增强了实体表示能力,在3个数据集上Hits@1值相比原模型分别增长了6.42%、4.59%和1.98%,对齐效果明显优于目前主流的实体对齐方法.  相似文献   

2.
针对现有实体对齐方法大多以本体模式匹配为基础,处理异构关联数据集间对齐关系存在局限性且实体链接缺失问题严重的现状,在分析关联数据语义的基础上,提出了一种独立于模式的基于属性语义特征的实体对齐方法,对关联数据集中实体属性根据语义标签特征及统计特征建模,并采用有监督的可变样本集VS-Adaboost算法实现分类器优化。实验结果表明,该方法的时间效率、准确率、查全率较高,F测度效果较好。  相似文献   

3.
实体对齐能够发现不同知识图谱实体间的对齐关系,是多源知识融合的基础。现有的基于知识表示学习的方法依赖大量标注数据,且并未利用知识图谱中属性等结构化信息,限制了实体对齐的效果。针对这个问题,文章提出融合语义和结构信息的实体对齐方法,使用协同训练(Cotraining)框架,将特征分为语义视角和结构视角,在两个视角下分别训练基于两个图谱联合表示学习(Joint Embedding)的实体对齐模型,并不断选出最可信的实体对齐结果用于辅助另一视角下模型的训练,实现语义和结构信息的融合,从而提升实体对齐的效果。同时,提出使用属性强约束,限制协同训练过程中产生的漂移。实验证明,与传统方法相比,该方法在准确率和F1值上都有提升。  相似文献   

4.
针对多数据源的融合应用,构建了基于多数据源的知识图谱.首先,对不同领域内的数据源构建相应本体库,并将不同本体库通过数据融合映射到全局本体库;然后,利用实体对齐和实体链接方法进行知识获取和融合;最后,搭建知识图谱应用平台,提供查询和统计等操作.在实体对齐方面,利用传统的基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,提出了基于约束嵌入转换的预测推理方法,实验结果表明,在预测准确率上取得较好的结果.  相似文献   

5.
真实数据集中含有缺失值,许多数据分析技术不能直接应用到不完整数据上,且缺失值的存在会明显地降低算法的有效性,缺失数据处理是一个不可缺少的数据预处理过程,因此提出了一个基于统计度量的缺失值填补算法,名为灰色类中心缺失值填补(GCCMVI)方法,利用数据点的类中心和标准差来填补缺失值,此外,通过比较阈值和实例与类中心间相关性的大小关系,决定是否加上(减去)标准差,灰色关联分析用来计算相关性,在缺失值被填补后,得到的完整的数据集用来训练支持向量机(SVM)分类器.在三种类型不同的数据集上进行比较,以分类精度,填补效果,填补时间作为评估准则来衡量算法的有效性.实验结果表明,所提出的算法显著地提高了分类精度和填补效果.  相似文献   

6.
基于微调BERT(bidirectional encoder representation from transformers)模型的实体对齐方法,对齐百度百科、互动百科的多模态资源。首先,通过下游的分类任务微调BERT模型,提升模型预测正确结果的能力;其次,针对数据集正负样本比例不均衡的问题,提出负采样策略,提升模型的准确程度与泛化性能,实验结果证明分类任务性能明显提升,AUC(area under the curve)值提升0.29;最后,将优化后的模型应用于实体对齐任务中,利用输出概率进行排序并预测最终对齐的实体对,实验结果优于基于相似度计算的实体对齐方法,F1值达到95.9%。  相似文献   

7.
在机器学习应用中,缺失值填补作为一种预处理技术,能有效提高数据的可用性,然而在缺失值较多或不均衡时,这些技术的效果并不理想.主动学习场景允许机器与用户交互,以获取少量关键数据,提高分类精度.针对主动获取数据量有限的问题,提出基于协同过滤加权预测的主动学习缺失值填补算法(Collaborative Filtering weighted prediction based Active Learning,CFAL).首先采用基于样本和基于属性的协同过滤方法分别预测缺失值;然后根据预测值的差异对数据进行排序,差异大的少量数据进行主动获取,差异小的少量数据利用预测值的平均值进行填补;重复该过程直到主动获取数据达到所给阈值上限,其余缺失值则使用预测值均值填补.实验在七个UCI常用数据集上进行,结果表明,与流行的几种填补算法相比,CFAL算法能更好地提升数据质量,应用于C4.5,kNN等算法能获得更高的分类精度.  相似文献   

8.
【目的】如何构造一个有效的数据图,是半监督学习领域中一个重要的研究方向,为了更好地研究数据样本之间的结构关系,提高基于图的半监督学习算法性能。【方法】利用数据的稀疏表示,构造数据样本的非对称图,并在标准数据集上进行半监督学习实验。【结果】在半监督学习框架中建立了异类数据和同类数据之间距离、内部结构和数据的稀疏表示关系,构造了非对称稀疏的数据图。【结论】通过在标准数据集上进行实验说明非对称稀疏图可以利用半监督学习数据特点,有效地对数据样本进行分类。
  相似文献   

9.
关系抽取是许多信息抽取系统中的一个关键步骤, 旨在从文本中挖掘结构化事实. 在应用传统的远程监督方法完成实体关系抽取任务时存在 2 个问题: ① 远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐, 并将对齐结果作为文本的标注数据, 这必然会导致错误标签问题; ② 目前基于统计学的方法过于依赖自然语言处理工具, 提取特征处理过程中生成的噪声积累严重影响抽取结果. 为了解决远程监督存在的弊端, 提出了一种基于注意力机制的端到端的分段循环卷积神经网络(convolutional neural network, CNN)模型. 为了检测更加细微的特征, 在网络输入层添加了注意力机制, 自动学习句子中与关系抽取相关的内容; 基于位置特征和词向量特征对句子进行编码, 并使用分段卷积神经网络(piecewise CNN, PCNN)抽取句子特征进行分类, 在网络中使用了效率较高的最大边界损失函数来衡量模型的性能. 该方法在 New York Times (NYT)数据集上的准确率比经典的 PCNN+MIL 模型提高了 2.0%, 比经典的 APCNN+D 模型提高了 1.0%, 与其他几种基线模型相比, 该模型准确率表现出色.  相似文献   

10.
大多数统计分析方法基于完整的数据集,这些方法不能直接用于包括缺失值的数据集.此外,由于成分数据的特殊属性,传统的缺失值插补方法直接用于这种类型的数据可能得到不良的结果.因此,对成分数据而言,缺失值的填补具有十分重要的意义.为了解决这个问题,根据核函数的性质,提出了一种基于修正Sigmoid核的成分数据缺失值非参数插补方法.该方法使用模拟和真实的数据集与k近邻插补法和最小二乘迭代回归插补法进行比较.实验结果表明,新的插补方法可以得到更准确的估计.  相似文献   

11.
数据预处理在商业企业数据仓库的应用   总被引:1,自引:2,他引:1  
数据预处理是数据挖掘过程中重要环节 ,对数据预处理技术进行研究具有现实意义。文章在介绍数据预处理方法的基础上 ,结合大型商业营销企业数据仓库数据的特点和数据挖掘过程中对数据的要求 ,详细论述了数据预处理技术在大型商业营销企业数据仓库中的应用 ,提出改善数据质量是预处理技术的关键。  相似文献   

12.
数据是高校管理信息化产生的最重要的无形资产,数据的丢失或者损坏都将极大地损害教学、管理和科研工作的正常开展.Oracle RAC是目前使用最为广泛的数据库集群化管理方式,在此基础上开展DataGuard数据保护技术的应用研究,可以弥补集群数据库环境在数据容灾、备份和故障恢复方面的不足,提升数据的安全性,确保高校各类应用系统的正常运行.  相似文献   

13.
随着人类社会逐步迈入以情感计算、自然语言处理等智能技术为核心支撑的人工智能时代,数据的战略资源地位日益凸显,数据治理已成为推进高校教育治理现代化的关键工具。人工智能赋能高校数据治理的基本逻辑主要体现在数据管理、数据质量、数据决策与数据服务4个层面。高校数据管理忽视“多方协同管理”、缺乏相对统一的数据质量标准、数据决策在权责限定与顶层设计方面存在缺失、数据服务潜能激发不力制约数据价值高效释放等可被视为人工智能赋能高校数据治理的现实挑战。对此,应创设落位智能共管的高校数据管理职能优化机制、完善校本化高校数据挖掘与共享质量标准、构建基于责权厘定的智能化数据决策体系、优化指向数据价值释放的智能数据服务体系。  相似文献   

14.
从一般数据库管理的角度出发,论述Excel管理数据库的方法。这种“表格”式的数据库管理方法将提供给用户一种新颖的设计方法和简单的使用操作。具有很大的推广价值。  相似文献   

15.
石油勘探技术发展迅速 ,需要一个集地震、测井、地质 3种数据为一体的勘探数据库来支持新的研究工作 .对包括地震资料处理、解释等资料的存储、应用方法进行了探索 ,提出了一种适合于中小油田的地震数据管理方案 .通过分析地震资料处理、解释产生的各类数据及其特点 ,从存储管理方法、数据规范化、质量控制方法、应用支持方法、数据服务方法等方面进行了详细论述  相似文献   

16.
讨论了文题实现方法,介绍了该数据库的总体结构。CPPDB利用dBASE Ⅲ支持建库,数据独立性高,修改、扩充方便。CPPDB存储了468种物质的29种物性数据,具有较强的物性估算和图形输出功能。  相似文献   

17.
数据仓库数据加载技术   总被引:2,自引:0,他引:2       下载免费PDF全文
数据仓库中的数据不是传统数据库中数据的简单堆积,其数据的组织必须方便基于数据仓库基础之上的数据挖掘和商业智能工作,为决策者提供访问、分析及共享信息的能力,从而发挥数据仓库的真正功效。成功构造一个数据仓库的关键在于自始至终理解用户需要,紧紧围绕用户目标这一主题进行数据的搜集和存储。首先分析数据仓库的特点及拥有的数据类别及组成,重点介绍如何从现有数据库中有效地将数据引导至数据仓库的方法和策略,具体给出了数据仓库中5种不同类别数据的加载方法。  相似文献   

18.
随着数据挖掘技术研究的进步与发展,并伴随着大数据概念的提出,将为数据挖掘技术的发展和应用带来一个很大的机遇,数据挖掘技术将进入一个新的发展时期.文章全面介绍了大数据,数据挖掘的基本概念以及数据挖掘的分析方法,最后给出了大数据时代的挖掘技术的应用领域及将来发展方向.  相似文献   

19.
数据仓库清洗技术讨论   总被引:4,自引:0,他引:4  
数据仓库建设过程中最关键的环节是数据集成,本文重点分析了数据清洗需要解决的问题及涉及的主要技术,针对数据库的数据模型与数据仓库模型的区别讨论了利用元数据的映射规则的数据清洗方法.  相似文献   

20.
数据挖掘和数据仓库的关系研究   总被引:1,自引:0,他引:1  
阐述了数据挖掘和数据仓库的有关技术,研究了数据挖掘和数据仓库的相互关系,说明了数据挖掘系统和数据仓库应统一分析和设计.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号