首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 781 毫秒
1.
文本数据中的实体和关系抽取是领域知识图谱构建和更新的来源.针对金融科技领域中文本数据存在重叠关系、训练数据缺乏标注样本等问题,提出一种融合主动学习思想的实体关系联合抽取方法.首先,基于主动学习,以增量的方式筛选出富有信息量的样本作为训练数据;其次,采用面向主实体的标注策略将实体关系联合抽取问题转化为序列标注问题;最后,基于改进的BERT-BiGRU-CRF模型实现领域实体与关系的联合抽取,为知识图谱构建提供支撑技术,有助于金融从业者根据领域知识进行分析、投资、交易等操作,从而降低投资风险.针对金融领域文本数据进行实验测试,实验结果表明,本文所提出的方法有效,验证了该方法后续可用于金融知识图谱的构建.  相似文献   

2.
为实现电力变压器运维知识的有效沉淀,以运维文本为研究对象,提出一种融合规则的电力变压器运维知识图谱深度构建框架.首先根据专家指导自顶向下构建知识图谱概念层;然后融合规则和深度神经网络模型抽取知识,构建知识图谱的数据层.针对运维文本中的实体界限模糊和上下文信息利用不充分问题,提出一种通过扩展上下文信息和BERT(bidirectional encoder representations from transformers)获取扩展Span标签的方法,用于实体和关系抽取.算例分析表明,该方法在电力变压器运维数据集中知识抽取效果良好.  相似文献   

3.
互联网开源渠道蕴含大量国防科技信息资源,是获取高价值军事情报的重要数据来源。国防科技领域开放信息抽取(open information extraction, OpenIE)旨在从海量信息资源中进行主谓宾-宾补(SAO-C)结构元组抽取,其对于国防科技领域本体归纳、知识图谱构建等具有重要意义。然而,相比其他领域的信息抽取,国防科技领域开放信息抽取面临元组重叠嵌套、实体跨度长且难识别、领域标注数据缺乏等问题。本文提出一种国防科技领域两阶段开放信息抽取方法,首先利用基于预训练语言模型的序列标注算法抽取谓语,然后引入多头注意力机制来学习预测要素边界。结合领域专家知识,利用基于实体边界的标注策略构建了国防科技领域标注数据集,并在该数据集上进行了实验,结果显示该方法的F1值在两阶段上比长短期记忆结合条件随机场(LSTM+CRF)方法分别提高了3.92%和16.67百分点。  相似文献   

4.
刘继明  孙成  袁野 《科学技术与工程》2021,21(18):7635-7641
为进一步提高客户语音问句实体信息抽取的准确性,增强智能问答系统知识图谱中信息抽取技术的整体效果,首先对语义标注进行优化,随后在BiLSTM-CRF(bidirectional long short-term memory conditional random filed)基础上加入BERT(bidi-rectional encoder representation from transformers)模型对句子进行实体抽取学习.在具体实验中,以语音问句事件文本为数据来源,对其进行语义标注和实体抽取实验.结果 表明,在语义标注优化的基础上同时加入BERT改进模型,信息抽取结果均高于BiLSTM-CRF方法,且改进模型的调和平均值达到91.53%,即可为增强事件实体信息抽取提供实践意义.  相似文献   

5.
针对现有突发事件演化关系抽取方法仅利用了句子本身的信息而忽略了背景知识的问题,引入概念图谱进行特征拓展,以获得更多的语义信息来改善演化关系抽取效果。首先根据概念图谱构建突发事件语义网络,通过特征迭代选择算法获得演化因子的概念特征,然后联合概念特征与突发事件文本作为双向门控循环单元(BiGRU)模型的输入进行特征学习,并利用注意力(Attention)机制对输出的特征信息序列实施加权变换,最后将学习到的特征序列输入到分类器进行演化关系分类。实验结果表明,所提出的基于概念图谱与BiGRU-Att模型的方法相比于现有方法,在准确率、召回率和F_1值等评价指标上均有提升。  相似文献   

6.
在构建中文基础教育知识图谱过程中,使用远程监督的方法能够有效解决训练语料匮乏的问题,同时使用神经网络模型能够提升构建过程中关系抽取的准确率.为了缓解远程监督中引入的错误标签带来的影响,模型通过双向门限循环单元(bidirectional gated recurrent unit)获取双向上下文中的语义信息,同时引入句子层注意力机制,动态降低噪声数据的权重.在基于中文信息技术教材教辅和百度百科的基础上构建的知识库上的关系抽取实验表明,引入句子层注意力机制能够促进模型的关系抽取效果,模型的准确率相比于中文主流关系抽取方法提高了4%~5%,能更好地应用于知识图谱的构建.  相似文献   

7.
基于CNN-BLSTM的食品舆情实体关系抽取模型研究   总被引:1,自引:0,他引:1  
食品舆情实体关系抽取是构建食品舆情知识图谱的关键技术,也是当前信息抽取领域的重要研究课题。针对食品舆情中常出现的实体对多关系问题,在卷积神经网络(convolutional neural network,CNN)中引入基于位置感知的领域词语义注意力机制;在双向长短时记忆(bidirectional long short-term memory,BLSTM)网络中引入基于位置感知的语义角色注意力机制,构建基于CNN-BLSTM的食品舆情实体关系抽取模型。在食品舆情数据集上进行了对比实验,实验结果表明:基于CNN-BLSTM的食品舆情实体关系抽取模型在食品舆情数据集上准确率比常用的几种深度神经网络模型高出8.7%~13.94%,验证了模型的合理性和有效性。  相似文献   

8.
实体对齐能够发现不同知识图谱实体间的对齐关系,是多源知识融合的基础。现有的基于知识表示学习的方法依赖大量标注数据,且并未利用知识图谱中属性等结构化信息,限制了实体对齐的效果。针对这个问题,文章提出融合语义和结构信息的实体对齐方法,使用协同训练(Cotraining)框架,将特征分为语义视角和结构视角,在两个视角下分别训练基于两个图谱联合表示学习(Joint Embedding)的实体对齐模型,并不断选出最可信的实体对齐结果用于辅助另一视角下模型的训练,实现语义和结构信息的融合,从而提升实体对齐的效果。同时,提出使用属性强约束,限制协同训练过程中产生的漂移。实验证明,与传统方法相比,该方法在准确率和F1值上都有提升。  相似文献   

9.
如何将材料领域知识与机器学习技术相结合是材料智能研究迫切需要解决的问题. 知识图谱(knowledge graphs, KGs)作为一种高效的知识组织模型, 可以有效地对材料领域知识进行表示、组织和推理, 从而提升材料机器学习算法的智能水平. 研究了基于自然语言处理技术的材料领域知识自动获取方法, 提出了基于双向门控循环单元-图神经网络-条件随机场(bidirectional-gated recurrent unit-graph neural network-conditional random field, Bi-GRU-GNN-CRF) 的材料实体关系联合抽取方法, 以及基于改进 TextRank 算法的材料工艺知识抽取方法, 实现了从专利、论文等材料文献中自动获取材料实体、关系、工艺流程等材料领域知识. 实验结果表明, 所提出的材料知识获取方法具有较好的精度和召回率, 能够有效提升材料知识图谱的知识覆盖度. 基于该方法构建的材料领域知识图谱的知识覆盖率达到了80%, 能够为材料智能研发提供更加全面的知识支撑. 同时, 构建了非调制特殊钢、铝基复合材料、热障陶瓷涂层材料 3 个材料领域知识图谱, 并进行了应用探索, 进一步验证了知识图谱为材料研发提供知识支撑的可能性.  相似文献   

10.
基于FAQ(Frequent Asked Questions)问答技术构建智能客服系统,是当前业界普遍采用的技术方案.基于FAQ构建的问答系统,其返回的结果具有稳定、可靠、质量高的优点;但因受限于人工标注的知识库规模,识别能力有限,容易遇到瓶颈.为了解决FAQ数据集规模有限的问题,给出了数据层面和模型层面的解决方法:在数据层面,利用百度知道爬取相关数据并挖掘语义等价问题,保证了数据的相关性和一致性;在模型层面,提出了一种面向迁移学习的深度神经网络transAT,该模型融合了Transformer强大的特征抽取能力和注意力机制,适用于句子对之间的语义相似度计算.实验表明,该方法可以显著提升模型在FAQ问答任务中的效果,在一定程度上解决了FAQ数据集规模有限的问题.  相似文献   

11.
关系抽取是许多信息抽取系统中的一个关键步骤, 旨在从文本中挖掘结构化事实. 在应用传统的远程监督方法完成实体关系抽取任务时存在 2 个问题: ① 远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐, 并将对齐结果作为文本的标注数据, 这必然会导致错误标签问题; ② 目前基于统计学的方法过于依赖自然语言处理工具, 提取特征处理过程中生成的噪声积累严重影响抽取结果. 为了解决远程监督存在的弊端, 提出了一种基于注意力机制的端到端的分段循环卷积神经网络(convolutional neural network, CNN)模型. 为了检测更加细微的特征, 在网络输入层添加了注意力机制, 自动学习句子中与关系抽取相关的内容; 基于位置特征和词向量特征对句子进行编码, 并使用分段卷积神经网络(piecewise CNN, PCNN)抽取句子特征进行分类, 在网络中使用了效率较高的最大边界损失函数来衡量模型的性能. 该方法在 New York Times (NYT)数据集上的准确率比经典的 PCNN+MIL 模型提高了 2.0%, 比经典的 APCNN+D 模型提高了 1.0%, 与其他几种基线模型相比, 该模型准确率表现出色.  相似文献   

12.
为了融合碎片化林业文本数据,解决目前林业网络知识散乱、无序和关联性不强的问题,将深度学习与知识图谱相结合,提出一种基于改进BERT和双向RNN的模型用于林业实体识别和实体关系抽取。通过基于实体Mask的BERT词向量处理,自动提取出序列中与研究领域相关的词级和语义特征,将词向量输入命名实体识别模型和实体关系提取模型训练。在通用数据集上,实体关系抽取BERT-BiGRU-Attention模型效果更优,F1值提升1%,准确率在90%以上;实体识别BERT-BiLSTM-CRF模型各项指标比传统模型提高2%。在林业数据集上,模型准确率达到80%以上。表明基于BERT和双向RNN模型构建中文林业知识图谱是可行的。在此模型的基础上搭建中文林业知识图谱智能系统,可以优化林业信息管理方法,促进林业发展。  相似文献   

13.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit,GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

14.
为了提高实体关系联合抽取的效果, 提出一种端到端的联合抽取模型(HSL)。HSL模型采取一种新的标记方案, 将实体和关系的联合抽取转化成序列标注问题, 同时采用分层的序列标注方式来解决三元组重叠问题。实验证明, HSL模型能有效地解决三元组重叠问题, 在军事语料数据集上F1值达到80.84%, 在公开的WebNLG数据集上F1值达到86.4%, 均超过目前主流的三元组抽取模型, 提升了三元组抽取的效果。  相似文献   

15.
油田开发指标变化特征被当作油田开发规划、油田开采状况评价、油田开发方案设计与调整及油田开发风险预测预警等决策管理问题的重要依据。针对至今没有很好解决的建立智慧油田的瓶颈问题之一——油田开发指标智能预测系统的选择预测方法和模型的知识挖掘问题,基于油田开发的海量数据,利用深度学习的卷积神经网络和循环神经网络,提取反映油田开发动态特征和知识。在此基础上,结合已建立的油田开发指标预测的模型库及知识库,利用深度学习的实体和关系的联合提取方法,提出通过油田开发输入信息、油田开发动态特征指标、油田开发指标预测的模型库和知识库挖掘选择油田开发指标最佳预测模型的知识方法。概念设计的模拟实例表明,提出的知识挖掘流程可实现只要输入油田开发的相关信息,就能自主获得恰当的油田开发指标预测模型。  相似文献   

16.
知识图谱以其错综复杂、信息密集和语义关联的特征,推动了知识应用以及神经网络学科的发展。知识表示学习方法的发展以及日益增长的认知智能需求,使得知识表示与推理成为当前知识图谱和自然语言处理领域的研究热点。得益于良好的知识表示学习方法,基于表示学习的大规模知识推理已在相关数据集上得到验证。文章主要展开如下工作:(1)对已有表示学习与推理方法进行梳理,将知识图谱推理方法划分为:距离模型方法、双线性模型的语义相似度方法、神经网络学习方法和图神经网络学习方法;(2)对未来知识图谱表示学习与推理方法进行展望。知识图谱的表示学习与推理方法的发展,对推动整个知识社区和强人工智能发展具有重要意义。  相似文献   

17.
为了扩大人工标注数据的规模, 从而提高模型性能, 尝试充分利用已有的异构人工标注数据训练模型参数。将Li等2015年提出的耦合序列标注方法扩展到基于BiLSTM的深度学习框架, 直接在两个异构训练数据上训练参数, 测试阶段则同时预测两个标签序列。在词性标注、分词词性联合标注两个任务上进行大量实验, 结果表明, 与多任务学习方法和传统耦合模型相比, 神经耦合模型在利用词法异构数据方面更优越,在异构数据转化和融合两个场景上都取得更高的性能。  相似文献   

18.
目前网络上关于辽代历史信息化智能查询服务系统资源相对缺乏,关于辽代历史介绍文本篇幅冗长,不方便大众进行阅读观看.为了便于大众能更加快速准确了解相关的辽代历史知识,基于百度百科、搜狗百科以及基于爬虫技术等形式获取了与辽代历史相关的文本数据,采用BiLSTM-CRF模型进行实体抽取,通过关系抽取模型抽取实体间的关系,通过知识融合等技术对得到的数据进行实体对齐以及本体构建.最终构建辽代历史文化领域知识图谱,并在此知识图谱的基础上开发了可视化查询系统.  相似文献   

19.
针对现有基于内容的推荐方法中存在的知识利用不充分问题,提出了一种融合关系抽取的推荐系统,在用word2vec模型对物品知识进行编码的基础上,用补充模板特征的关系抽取模型对物品知识进行了更深层次的挖掘,构建了增强知识图谱,进而获得增强实体特征,与文本特征、基础实体特征融合后构建物品特征. 实验证明,融合关系抽取的推荐系统推荐效果优于同类模型,并且各个部分的改进都是有效的.   相似文献   

20.
提出了基于条件随机场(conditional random fields,CRF)的网页动态关系抽取算法.给出了动态关系的定义,建立了动态关系的表示模型,并用一个六维结构来表达动态关系.与传统关系抽取中基于规则或者基于分类的解决方法不同,本文认为可以将动态关系识别问题转化为一个标注问题,并提出了基于CRF的句子层面的关系标注和抽取方法.在本算法中,首先将一个句子通过语义角色标注(semantic role labeling,SRL)系统进行成分识别,然后将语义角色标注结果以及词的POS类型、词组的命名实体类型等作为CRF的训练特征,对句子成分进行标注.最后测试了大量的真实新闻网页,实验结果表明了本文提出算法的实用性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号