首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit,GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

2.
自主工业软件是支撑国内中小企业创新发展的核心力量之一。自主工业软件相关文本中蕴含着大量与制造业相关的知识,但是目前缺少相应的知识提取和知识库构建方法。该文提出一种基于神经网络和自然语言处理的知识提取模型,该模型包括文本表示、实体识别、关系抽取3个部分。基于知识图谱对提取的实体和关系进行建模,通过本体建模定义自主工业软件相关概念,利用图数据建模将本体模型中的概念映射到图数据中,提升了数据检索和建模能力,并将数据持久化存储到知识库中。应用结果表明:该方法可用于构建自主工业软件知识库,对整合制造业相关知识起到重要作用。  相似文献   

3.
中文嵌套命名实体关系抽取研究   总被引:1,自引:0,他引:1  
为了解决嵌套命名实体关系抽取研究缺乏相关语料库这一问题, 在现有中文命名实体语料库的基础上, 将人工标注与机器学习相结合来抽取其语义关系。人工标注一个中文嵌套命名实体关系语料库, 然后分别采用支持向量机和卷积神经网络等方法, 进行中文嵌套实体关系抽取实验。实验结果表明, 在人工标注实体的中文嵌套命名实体语料上, 嵌套实体关系抽取的性能非常好, F1指数达到95%以上, 而在自动识别实体上的抽取性能尚不理想。  相似文献   

4.
针对关系抽取任务中文本特征提取不充分及核心词表现弱的问题,提出了一种多特征注意力卷积神经网络的实体关系抽取方法.利用位置、词性及实体标签作为输入特征,充分捕获文本信息,构建注意力模型,获得单词与目标实体之间的相关性,并将注意力机制与卷积神经网络相融合以进行关系预测.以新疆旅游领域为研究对象,总结归纳15种实体关系.采用...  相似文献   

5.
基于CNN-BLSTM的食品舆情实体关系抽取模型研究   总被引:1,自引:0,他引:1  
食品舆情实体关系抽取是构建食品舆情知识图谱的关键技术,也是当前信息抽取领域的重要研究课题。针对食品舆情中常出现的实体对多关系问题,在卷积神经网络(convolutional neural network,CNN)中引入基于位置感知的领域词语义注意力机制;在双向长短时记忆(bidirectional long short-term memory,BLSTM)网络中引入基于位置感知的语义角色注意力机制,构建基于CNN-BLSTM的食品舆情实体关系抽取模型。在食品舆情数据集上进行了对比实验,实验结果表明:基于CNN-BLSTM的食品舆情实体关系抽取模型在食品舆情数据集上准确率比常用的几种深度神经网络模型高出8.7%~13.94%,验证了模型的合理性和有效性。  相似文献   

6.
针对现有基于内容的推荐方法中存在的知识利用不充分问题,提出了一种融合关系抽取的推荐系统,在用word2vec模型对物品知识进行编码的基础上,用补充模板特征的关系抽取模型对物品知识进行了更深层次的挖掘,构建了增强知识图谱,进而获得增强实体特征,与文本特征、基础实体特征融合后构建物品特征. 实验证明,融合关系抽取的推荐系统推荐效果优于同类模型,并且各个部分的改进都是有效的.   相似文献   

7.
药物相互作用是指药物与药物之间相互促进或抑制.针对现有的药物关系抽取方法利用外部背景知识和自然语言处理工具导致错误传播和积累的问题,以及现有大多数研究在数据预处理阶段对药物实体进行盲化,忽略了有助于识别关系类别的目标药物实体信息的问题.论文提出了基于预训练生物医学语言模型和词汇图神经网络的药物相互作用关系抽取模型,该模型通过预训练语言模型获得句子的原始特征表示,在基于数据集构建的词汇图上进行卷积操作获得与句子相关的全局特征信息表示,最后与药物目标实体对特征进行拼接从而构建药物相互作用关系提取任务的特征表示,在获得丰富的全局特征信息的同时避免了使用自然语言处理工具和外部背景知识,提升模型的准确率.论文的模型在DDIExtraction 2013数据集上的F1值达到了83.25%,优于目前最新方法2.35%.  相似文献   

8.
实体排歧一直是信息抽取任务中的难点问题.传统的方法常常借助语言知识库来进行排歧,如WordNet等.但是这类方法存在着一个问题,就是很难对人名以及最新的词汇进行排歧.因此,本文利用当前流行的维基百科知识库中的排歧页对同名实体进行排歧处理,提出基于维基百科的实体排歧方法.实验显示该方法能够有效的对人名进行排歧处理并且效果显著.  相似文献   

9.
关系抽取是许多信息抽取系统中的一个关键步骤, 旨在从文本中挖掘结构化事实. 在应用传统的远程监督方法完成实体关系抽取任务时存在 2 个问题: ① 远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐, 并将对齐结果作为文本的标注数据, 这必然会导致错误标签问题; ② 目前基于统计学的方法过于依赖自然语言处理工具, 提取特征处理过程中生成的噪声积累严重影响抽取结果. 为了解决远程监督存在的弊端, 提出了一种基于注意力机制的端到端的分段循环卷积神经网络(convolutional neural network, CNN)模型. 为了检测更加细微的特征, 在网络输入层添加了注意力机制, 自动学习句子中与关系抽取相关的内容; 基于位置特征和词向量特征对句子进行编码, 并使用分段卷积神经网络(piecewise CNN, PCNN)抽取句子特征进行分类, 在网络中使用了效率较高的最大边界损失函数来衡量模型的性能. 该方法在 New York Times (NYT)数据集上的准确率比经典的 PCNN+MIL 模型提高了 2.0%, 比经典的 APCNN+D 模型提高了 1.0%, 与其他几种基线模型相比, 该模型准确率表现出色.  相似文献   

10.
目前网络上关于辽代历史信息化智能查询服务系统资源相对缺乏,关于辽代历史介绍文本篇幅冗长,不方便大众进行阅读观看.为了便于大众能更加快速准确了解相关的辽代历史知识,基于百度百科、搜狗百科以及基于爬虫技术等形式获取了与辽代历史相关的文本数据,采用BiLSTM-CRF模型进行实体抽取,通过关系抽取模型抽取实体间的关系,通过知识融合等技术对得到的数据进行实体对齐以及本体构建.最终构建辽代历史文化领域知识图谱,并在此知识图谱的基础上开发了可视化查询系统.  相似文献   

11.
医疗文本具有实体密度高、句式冗长等特点,简单的神经网络方法不能很好地捕获其语义特征,因此提出一种基于预训练模型的混合神经网络方法。首先使用预训练模型获取动态词向量,并提取实体标记特征;然后通过双向长短期记忆网络获取医疗文本的上下文特征,同时使用卷积神经网络获取文本的局部特征;再使用注意力机制对序列特征进行加权,获取文本全局语义特征;最后将实体标记特征与全局语义特征融合,并通过分类器得到抽取结果。在医疗领域数据集上的实体关系抽取实验结果表明,新提出的混合神经网络模型的性能比主流模型均有提升,说明这种多特征融合的方式可以提升实体关系抽取的效果。  相似文献   

12.
实体关系抽取是知识图谱技术的重要环节之一。英文实体关系抽取的研究已经比较成熟,相比之下,中文实体关系抽取的发展却并不理想。由于相关语料的匮乏,中文实体关系抽取的发展受到了一定的限制。针对这一问题,COAE2016在任务三中提出了中文实体关系抽取任务。通过分别使用了基于模板、基于SVM与基于CNN的实体关系抽取算法解决了这一问题,并根据其在COAE2016任务三的评测数据集上的效果,对比分析了三种实体关系抽取算法的优缺点。实验证明,基于SVM的算法和基于CNN的算法均在评测数据集上表现出了良好的效果。  相似文献   

13.
知识图谱以图的形式描述概念、实体及它们之间的关系,通过建立唐诗、作者和地点等关系图谱,可以从古诗词数据中挖掘深层次的知识。获取互联网中的各种类型的唐诗相关的数据,包括各类百科数据和垂直网站等。利用自顶向下的方法,构建本体,定义领域概念,并自动的从多数据源中抽取出实体、关系及属性等信息进行填充。基于词向量进行实体对齐,判断不同来源的实体是否描述的是现实世界中的同一实体,从而扩充构建好的知识图谱。最后,通过Neo4j图数据库进行展示。  相似文献   

14.
药物相互作用是指药物之间存在的抑制或促进等作用. 针对目前方法在不同关系类别上的抽取结果差异较大的问题,论文提出了一种利用外部知识的关系抽取模型,该方法首先对外部药物数据库中的信息进行处理,构建带有药物描述信息的数据集,然后在该数据集上进行模型训练,并保存最优模型,最后将该最优模型与药物关系抽取模型相结合,进行药物关系抽取,从而更好的利用了药物数据库中已有的知识,缓解了不同关系类别抽取结果差异较大的问题,提高了抽取效果. 在DDIExtraction 2013数据集上的实验结果表明,论文方法的F1值优于目前最优方法2.47%.  相似文献   

15.
刘继明  孙成  袁野 《科学技术与工程》2021,21(18):7635-7641
为进一步提高客户语音问句实体信息抽取的准确性,增强智能问答系统知识图谱中信息抽取技术的整体效果,首先对语义标注进行优化,随后在BiLSTM-CRF(bidirectional long short-term memory conditional random filed)基础上加入BERT(bidi-rectional encoder representation from transformers)模型对句子进行实体抽取学习.在具体实验中,以语音问句事件文本为数据来源,对其进行语义标注和实体抽取实验.结果 表明,在语义标注优化的基础上同时加入BERT改进模型,信息抽取结果均高于BiLSTM-CRF方法,且改进模型的调和平均值达到91.53%,即可为增强事件实体信息抽取提供实践意义.  相似文献   

16.
实体关系抽取在挖掘结构化事实的信息抽取系统中扮演着重要的角色。近年来,深度学习在关系抽取任务中取得了显著的成果,同时,注意力机制也逐步地融入到神经网络中,进一步提高了关系抽取的性能。但是,目前的注意力机制主要关注一些低层次的特征,比如词汇等。本文提出一种基于高层语义注意力机制的分段卷积神经网络模型(PCNN_HSATT,high-level semantic attention-based piecewise convolutional neural networks),该模型将注意力机制设置在分段最大池化层后,动态地关注了高层次的语义信息。除此之外,由于中文实体关系语料稀疏性较大,本文利用同义词词林对COAE2016语料进行增强以扩大数据规模。最后在COAE2016和ACE2005的中文语料上进行实验,F1值分别达到了78.41%和73.94%,与效果最好的SVM方法相比分别提高了10.45%和0.67%,这充分证明了PCNN_HSATT模型在中文关系抽取上的有效性。  相似文献   

17.
互联网开源渠道蕴含大量国防科技信息资源,是获取高价值军事情报的重要数据来源。国防科技领域开放信息抽取(open information extraction, OpenIE)旨在从海量信息资源中进行主谓宾-宾补(SAO-C)结构元组抽取,其对于国防科技领域本体归纳、知识图谱构建等具有重要意义。然而,相比其他领域的信息抽取,国防科技领域开放信息抽取面临元组重叠嵌套、实体跨度长且难识别、领域标注数据缺乏等问题。本文提出一种国防科技领域两阶段开放信息抽取方法,首先利用基于预训练语言模型的序列标注算法抽取谓语,然后引入多头注意力机制来学习预测要素边界。结合领域专家知识,利用基于实体边界的标注策略构建了国防科技领域标注数据集,并在该数据集上进行了实验,结果显示该方法的F1值在两阶段上比长短期记忆结合条件随机场(LSTM+CRF)方法分别提高了3.92%和16.67百分点。  相似文献   

18.
秦渴 《创新科技》2015,(5):30-32
海量的数字资源蕴含着丰富、有价值的知识,如何有效地利用这些知识,解决信息过载而知识匮乏的矛盾成为学术界研究的重点。本文首先探讨了知识抽取的意义,然后从知识抽取实现方法和技术、知识抽取应用实践两个方面对国内外相关研究现状进行了调研和梳理,认为知识抽取未来的研究重点是以科学文献为主要研究对象、基于本体和语义模型的知识抽取技术的研究,构建以用户需求为中心、自适应、可移植的知识抽取系统三个方面。  相似文献   

19.
通过探索知识图谱在产业集群的应用,提出了产业集群知识图谱整体设计框架,设计了产业集群知识图谱中实体及其关系本体模型。选取宁波市注塑机产业集群为例,通过互联网平台获取企业数据,经过数据预处理、知识抽取和知识融合,依据本体模型构建了宁波市注塑机产业集群知识图谱,将所构建的所有三元组存储于Neo4j图数据库中。根据所构建的知识图谱,分析注塑机集群整体特性,通过分析发现产业集群在地理位置临近关系上和业务往来有着密切的关系,验证本文提出方法的可行性。  相似文献   

20.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号