首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
实体关系抽取是信息抽取的重要组成部分.描述了一种融合多信息的实体语义关系抽取方法,充分利用中文的各种特征和信息来提高关系抽取的性能.该方法主要结合特征向量和树核函数两种方法;特征向量表示了文本的语言信息,树核方法表示了文本的结构化信息.并且在2005年的自主内容抽取(automatic content extraction,ACE)基准语料上进行关系检测和6个关系大类抽取的实验.实验结果表明,该方法能识别出大部分的非关系实例,各种关系类型识别的精确率和召回率也有一定提高.  相似文献   

2.
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.  相似文献   

3.
随着"智能油田"的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。  相似文献   

4.
提出了一种企业破产事件抽取框架,该框架可以从法律裁定书等卷宗资料中检测出相应的法律事件,并抽取出与事件相关的结构化要素信息.该框架结合从法院所获得的裁定书等卷宗信息,运用远程监督技术来构建模型训练数据;再通过命名实体识别技术对句级别的文书进行序列标注;最后结合自定义的事件触发词表与事件字典,运用事件抽取技术对法律文书进行事件识别,并给出对应事件的结构化信息.实验结果表明本框架能够取得较高的事件识别精度,是一种有效的企业破产事件抽取框架.  相似文献   

5.
案例表示是案例推理的基础,突发事件案例涉及到大量非结构化的信息,如何有效地将海量信息整合成案例是案例表示的关键。该文针对中国突发事件的特点,结合信息来源,给出了突发事件案例应包括的要素,针对结构化信息和非结构化信息提出了不同的表示方法。对于结构化信息,使用模糊集合的方法定量表示,以隶属度函数代替单一的数值;对于非结构化的文本信息,通过对3种关键词提取方法的比较研究,选择了基于词语共现概率的改进方法提取关键词,利用提取结果进行信息抽取。整个案例被表示成包含定量化数据和抽取文本的半结构化形式,前者主要用于案例匹配,后者记录了案例的详细内容,用于提供决策支持。这种表示方法为进一步的案例推理奠定了基础。  相似文献   

6.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit,GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

7.
关系抽取是许多信息抽取系统中的一个关键步骤, 旨在从文本中挖掘结构化事实. 在应用传统的远程监督方法完成实体关系抽取任务时存在 2 个问题: ① 远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐, 并将对齐结果作为文本的标注数据, 这必然会导致错误标签问题; ② 目前基于统计学的方法过于依赖自然语言处理工具, 提取特征处理过程中生成的噪声积累严重影响抽取结果. 为了解决远程监督存在的弊端, 提出了一种基于注意力机制的端到端的分段循环卷积神经网络(convolutional neural network, CNN)模型. 为了检测更加细微的特征, 在网络输入层添加了注意力机制, 自动学习句子中与关系抽取相关的内容; 基于位置特征和词向量特征对句子进行编码, 并使用分段卷积神经网络(piecewise CNN, PCNN)抽取句子特征进行分类, 在网络中使用了效率较高的最大边界损失函数来衡量模型的性能. 该方法在 New York Times (NYT)数据集上的准确率比经典的 PCNN+MIL 模型提高了 2.0%, 比经典的 APCNN+D 模型提高了 1.0%, 与其他几种基线模型相比, 该模型准确率表现出色.  相似文献   

8.
合理利用城市轨道交通安全事件案例对突发事件下辅助制定应急决策具有重大意义.目前,中国轨道交通运营商存储了大量的安全事件案例,但大多以自由化或半自由化文本的形式存储在数据库中,使用率较低.为提高城市轨道交通安全事件案例的使用效率,提出了基于规则的信息抽取方法,将城市轨道交通安全事件案例的自由文本转化为用共性知识元表示的结构化数据.通过指标计算,所提出的方法可以以较高的准确率和召回率对安全事件要素进行抽取,可为突发事故时的应急决策制定提供高效的数据支撑.  相似文献   

9.
随着互联网的快速发展,信息也呈爆炸式增长,如何从海量的文本信息中获取所需的信息成为当今一门重要的课题.检索、分类、抽取等文本信息处理技术取得了长足发展,但面向人物属性的自动信息提取却没有引起人们的重视.基于规则的人物信息抽取算法,首先对需要抽取的信息进行规则描述,重点是时间、地点、籍贯等信息.在规则的基础上,研究开发人物信息抽取系统,最终实现了半结构化人物属性信息的自动提取.  相似文献   

10.
针对关系抽取任务中文本特征提取不充分及核心词表现弱的问题,提出了一种多特征注意力卷积神经网络的实体关系抽取方法.利用位置、词性及实体标签作为输入特征,充分捕获文本信息,构建注意力模型,获得单词与目标实体之间的相关性,并将注意力机制与卷积神经网络相融合以进行关系预测.以新疆旅游领域为研究对象,总结归纳15种实体关系.采用...  相似文献   

11.
中文文本挖掘的特征导航机制   总被引:9,自引:0,他引:9  
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系·鉴于中文文本的特点,提出了基于因子分析的文本特征抽取机制·通过识别文本中潜在的概念结构来抽取特征项,而且有助于改善向量空间模型中各个分量间的斜交现象·同时给出了基于概念的信息导航机制,按概念层次和上下文环境展现用户所关心的内容  相似文献   

12.
结合模式匹配、生物医学本体及共现技术,设计了一种自动抽取基因与疾病、基因与基因之间关系的文本挖掘方法,并开发了一个可以处理海量文本数据的系统.该系统可抽取与疾病相关的基因实体,挖掘基因与疾病、基因与基因之间的关系,衡量基因与疾病实体的相关性,并为分析基因与疾病、基因与基因之间的关系提供了网络可视化工具.实验结果表明,系统在测试数据集上抽取基因与疾病之间的关系可获得83.0%的综合测评率,抽取基因与基因之间的关系可获得78.5%的综合测评率.该系统已成功应用于乳腺癌及相关基因的研究.  相似文献   

13.
从应用的角度提出了一种用于半结构化文本的基于正则表达式的信息抽取方法.通过对单个样本Web页面生成DOM(document object model)树生成信息抽取任务的规则.抽取规则采用正则表达式的形式记录目标信息的页面特征,通过规则的执行完成信息的抽取.该方法采用了基于正则表达式的Web页面的预处理(约简)、Web页面DOM树的生成、抽取规则的生成和执行.由于在实际大批量的抽取工作中能够避免多次生成页面DOM树,因此批量信息抽取的速度提高了约10倍.  相似文献   

14.
针对Web论坛的一种结构化数据自动抽取方法   总被引:1,自引:0,他引:1  
由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。本文提出了一种从任意的论坛站点中自动抽取结构化数据的通用解决方案,通过分析网页结构发现列表页和帖子页中的数据记录,并利用一组产生式规则从发现的数据记录中抽取结构化的数据。实验结果表明该方法在抽取论坛数据记录方面明显优于已有的方法,对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。  相似文献   

15.
属性抽取的目标是从非结构化文本中抽取与文本实体相关的属性和属性值,然而在电商场景下基于序列标注的模型缺少应对大规模属性抽取任务的可扩展性和可泛化性能力。本文提出基于阅读理解的商品属性抽取模型,通过额外加入问句来强化模型对属性的理解,结合双仿射注意力机制捕获问句和文本之间的语义特征,进一步提高模型的抽取性能。本文在电商数据集上对不同类型问句和不同解码器进行了对比实验,结果表明本文提出的方法优于多个基线模型,相较于OpenTag和SUOpenTag模型,属性抽取的F1值分别提升7.70%和3.26%,未登录词识别的F1值分别提升15.51%和8.12%。  相似文献   

16.
为了实现中文医药领域症状信息的自动化抽取,提出了一种基于条件随机场的拆分症状文本特征的抽取方法,将症状文本自动识别拆分为症状主体和症状表现形式自动识别两个部分,再将这两种识别结果作为特征加入到症状信息抽取过程中。信息抽取的结果包含完整的症状信息二元组:症状主体和症状表现形式。实验表明,该方法在症状信息抽取的准确率及查全率上有较大提升。  相似文献   

17.
王腾阳  赵小丹  胡林 《科学技术与工程》2023,23(27):11562-11569
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种植资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。文献格式为PDF文档,对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(Optical Character Recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F值为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。  相似文献   

18.
中文关系抽取技术研究   总被引:1,自引:0,他引:1  
在网络数据杂乱繁多的今天,信息抽取越来越受到重视,而关系抽取作为信息抽取的一个重要研究方向也倍受学者们的关注.在对关系抽取的发展历史进行回顾的基础上,阐述了近五年里关系抽取研究中的主要方法和思路.根据关系抽取中所采用的不同技术,对比分析了他们在模型思路及技术实现上的异同,同时对优势和劣势比较了分析.最后,对关系抽取任务中存在的难点问题进行了阐述,并提出了未来可能的解决思路,旨在为关系抽取技术的进一步发展和应用提供有效的说明和借鉴.  相似文献   

19.
事件指代消解任务比实体指代消解难度大, 主要原因为事件描述在非结构化文本中分布稀疏, 且不具备同指关系的单链占很大比例, 同时事件自身承载的语义信息比实体更加丰富。为了准确地抽取文本中的同指事件, 针对以上特点, 提出一种融合篇章表征的事件指代消解模型。该模型通过CRF有效地区分非事件句、单链以及同指链, 同时利用分层注意力机制捕捉句子级别和篇章级别的重要信息。在KBP2015和2016数据集上进行的事件指代消解实验验证了该模型的有效性, 在CoNLL评测标准下F1值达到43.07%。  相似文献   

20.
文档级实体关系抽取的主要任务是提取文档中实体之间的关系.相较于句内实体关系提取,文档级实体关系抽取需要对文档中多个句子进行推理.为了解决文档中不同实体之间的复杂信息交互问题,提出一个混合提及级图MMLG (Mixed Mention-Level Graph)策略,用于拟合文档中不同实体之间的复杂信息交互,提高模型对于文档级实体关系的感知能力.此外,为了应对实体关系中存在的关系重叠问题,构建了实体关系图ERG (Entity Relation Graph)模块,该模块融合了路径推理机制,主要针对实体间的多个关系路径进行推理学习,更准确地识别提及级节点实体及关系.通过将MMLG策略与ERG模块聚合到实体关系抽取模型中,构建BoBGSAL-Net (Based on Bipartite Graph Structure Aggregate Logic Network)模型,并在公开数据集DocRED和作者实验室构建的数据集AlSiaRED上开展实验,结果证明BoBGSAL-Net在文档级实体关系抽取任务中性能得到提升,其中BoBGSAL-Net+BERT模型在AlSiaRED数据集上的关系抽取...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号