首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
为了提高实体关系联合抽取的效果,提出一种端到端的联合抽取模型(HSL).HSL模型采取一种新的标记方案,将实体和关系的联合抽取转化成序列标注问题,同时采用分层的序列标注方式来解决三元组重叠问题.实验证明,HSL模型能有效地解决三元组重叠问题,在军事语料数据集上F1值达到80.84%,在公开的WebNLG数据集上F1值达...  相似文献   

2.
互联网开源渠道蕴含大量国防科技信息资源,是获取高价值军事情报的重要数据来源。国防科技领域开放信息抽取(open information extraction, OpenIE)旨在从海量信息资源中进行主谓宾-宾补(SAO-C)结构元组抽取,其对于国防科技领域本体归纳、知识图谱构建等具有重要意义。然而,相比其他领域的信息抽取,国防科技领域开放信息抽取面临元组重叠嵌套、实体跨度长且难识别、领域标注数据缺乏等问题。本文提出一种国防科技领域两阶段开放信息抽取方法,首先利用基于预训练语言模型的序列标注算法抽取谓语,然后引入多头注意力机制来学习预测要素边界。结合领域专家知识,利用基于实体边界的标注策略构建了国防科技领域标注数据集,并在该数据集上进行了实验,结果显示该方法的F1值在两阶段上比长短期记忆结合条件随机场(LSTM+CRF)方法分别提高了3.92%和16.67百分点。  相似文献   

3.
端到端的事件抽取涉及两个子任务:事件检测和事件元素抽取,当前大多数研究工作并未解决元素抽取中角色重叠的问题,并且忽略了数据集提供的静态信息。文章提出一种基于两个独立编码器的事件抽取模型,通过词典增强的序列标注方法检测触发词和事件类型,再将事件类型、实体类型和边界信息作为元素抽取阶段的补充特征,使用多个角色二分类网络实现“分离式”的元素识别和角色分类,最后将基于静态数据统计得到的角色辨识度对所有分类器的损失函数加权求和,作为最终的损失函数,进而更好地拟合数据集特点。在两个公开的中文数据集ACE2005和DuEE上,实验F1值分别达到57.1%和76.1%,并且该方法有效提高了对角色重叠事件的识别准确率。  相似文献   

4.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit, GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

5.
提出了基于条件随机场(conditional random fields,CRF)的网页动态关系抽取算法.给出了动态关系的定义,建立了动态关系的表示模型,并用一个六维结构来表达动态关系.与传统关系抽取中基于规则或者基于分类的解决方法不同,本文认为可以将动态关系识别问题转化为一个标注问题,并提出了基于CRF的句子层面的关系标注和抽取方法.在本算法中,首先将一个句子通过语义角色标注(semantic role labeling,SRL)系统进行成分识别,然后将语义角色标注结果以及词的POS类型、词组的命名实体类型等作为CRF的训练特征,对句子成分进行标注.最后测试了大量的真实新闻网页,实验结果表明了本文提出算法的实用性和有效性.  相似文献   

6.
基于核心依存图(kernel dependency graph,KDG)的事件抽取主要通过语义结构进行匹配。在已构建的越-英-汉南海新闻框架网络基础上,主要对KDG语义分析模式、基于核心依存图的新闻事件抽取分析以及核心依存图生成和新闻事件信息抽取进行研究。研究重点包括典型KDG、零形式框架元素和框架元素融合等特殊KDG的分析模式,面向事件信息抽取的KDG的表示模式和标注例句自动生成KDG的过程。研究结果表明,基于KDG的事件信息抽取方法直观明了、语言学理据充分,具有一定的可行性,对新闻文本中的语义线索发现较为适合。目前已经可以从已完成框架语义标注的例句中自动生成KDG并抽取出相应的事件模型。  相似文献   

7.
针对传统时间关系只应用在机器学习方向关系抽取的问题, 提出一种基于序列标注实体识别的关系抽取方法. 先构建双向长短期记忆网络(Bi-LSTM)模型进行特征提取, 再输入时间关系作为特征矩阵进行图卷积. 实验结果表明: 时间关系能提高因果关系抽取效果, 并且包含时间关系的Bi-LSTM+GCN模型能有效抽取因果事件; 带有时间关系的Bi-LSTM+GCN模型获得因果关系的抽取结果优于传统方法因果关系的抽取结果.  相似文献   

8.
知识图谱的构建对于信息检索、智能问答、智能推荐等下游工作具有重要意义,而抽取资料中的信息是构建知识图谱的关键。为了实现有效知识抽取,提出了一个基于深度主动学习的实体关系联合抽取框架。在该框架下,基于深度主动学习的采样方法降低文本标注成本,改进的EDA数据增强方法(EDA-RE)解决样本间的关系分类不均衡、标注资料不足等问题,“BIO-OVE/R-HT”的标注策略和ChineseBERT-BiLSTM-CRF(CBBC)联合抽取模型解决传统流水线模型存在误差累积和无法抽取重叠关系等问题。通过百度竞赛提供的数据集进行实验,验证了框架中各方法的有效性。  相似文献   

9.
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.  相似文献   

10.
关系抽取是许多信息抽取系统中的一个关键步骤, 旨在从文本中挖掘结构化事实. 在应用传统的远程监督方法完成实体关系抽取任务时存在 2 个问题: ① 远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐, 并将对齐结果作为文本的标注数据, 这必然会导致错误标签问题; ② 目前基于统计学的方法过于依赖自然语言处理工具, 提取特征处理过程中生成的噪声积累严重影响抽取结果. 为了解决远程监督存在的弊端, 提出了一种基于注意力机制的端到端的分段循环卷积神经网络(convolutional neural network, CNN)模型. 为了检测更加细微的特征, 在网络输入层添加了注意力机制, 自动学习句子中与关系抽取相关的内容; 基于位置特征和词向量特征对句子进行编码, 并使用分段卷积神经网络(piecewise CNN, PCNN)抽取句子特征进行分类, 在网络中使用了效率较高的最大边界损失函数来衡量模型的性能. 该方法在 New York Times (NYT)数据集上的准确率比经典的 PCNN+MIL 模型提高了 2.0%, 比经典的 APCNN+D 模型提高了 1.0%, 与其他几种基线模型相比, 该模型准确率表现出色.  相似文献   

11.
针对通用领域的事件论元抽取研究中角色信息利用不足和论元间缺少交互两个问题,提出角色信息引导的多轮事件论元抽取模型,用于增强文本的语义信息和论元之间的交互能力,提升事件论元抽取的性能。首先,为了更好地利用角色知识来引导论元的抽取,该模型根据角色定义构造角色知识,对角色信息和文本独立编码,并采用基于注意力机制的方法获取标签知识增强的文本表示,进而采用增强嵌入来预测各角色论元的起始和结束位置。同时,为了在抽取过程中充分利用事件论元之间的交互,受多轮对话模型的启发,设计一种多轮事件论元抽取算法。该算法参照“先易后难”的自然逻辑,每次选择预测概率最大,也是最容易确定的角色进行抽取。在论元抽取过程中,为了对论元之间的交互进行建模,模型引入历史嵌入,并在每一次预测结束后更新历史嵌入,帮助下一轮事件论元的抽取。实验结果表明,角色信息的引导和多轮抽取算法均有效地提升了论元抽取的性能,使得该模型的表现优于其他基线模型。  相似文献   

12.
中文事件抽取通常使用循环神经网络(recurrent neural network, RNN)来进行事件和事件要素的抽取, 但 RNN 在处理长度较长的词语时容易丢失重要信息, 为此提出一种组合卷积神经网络(convolutional neural network, CNN)与双向长短期记忆(bidirectional long short-term memory, Bi-LSTM)网络的中文事件抽取模型 CNN-Bi-LSTM-CRF, 其中 CRF (conditional random field) 为条件随机场. 采用基于注意力机制和语义特征生成的字词联合向量, 使用 CNN 和 Bi-LSTM 模型对字词联合向量进行处理, 以获取其隐含表示, 最后通过 CRF 得出预测结果. 实验结果表明, 所提出的方法与其他现有的中文事件抽取方法相比, 准确率有明显提升.  相似文献   

13.
基于数学模型或统计模型的传统航迹预测方法存在一定的局限性,无法满足现代航空领域对于高效、准确、实时的航迹预测需求。针对此问题,提出基于注意力机制的CNN-LSTM模型的实时航迹预测方法。该模型首先使用一维卷积对航迹数据的多维度特征进行提取,从而减少输入特征的数量。其次利用获取的多维度时序数据作为LSTM的输入,通过LSTM提取上下文的信息。最后使用注意力机制为LSTM中不同时序节点的输出赋予权重,达到聚焦关键航迹信息的作用。经过实验验证:本文的模型与LSTM模型和CNN-LSTM模型相比,预测出的路径更接近真实航迹;文中的模型比LSTM模型的平均预测误差降低了29.7%,比CNN-LSTM模型降低了25.4%。综上所述,文中方法可以显著提高航迹预测的精度。  相似文献   

14.
针对情感分析问题中长句和短句进行情感分类时不同的建模特点,提出了一种基于联合深度学习模型的情感分类方法。该方法融合长短期记忆模型(LSTM)与卷积神经网络(CNN)对影视评论数据进行情感极性判别,该方法采用LSTM模型对上下文进行建模,通过逐词迭代得到上下文的特征向量,采用CNN模型从词向量序列中自动发现特征,并从局部抽取特征后将局部特征整合成全局特征来提高分类效果。所提出的方法在COAE2016评测的任务2的情感极性分类任务中,其系统准确率获得最好结果。  相似文献   

15.
刘继明  孙成  袁野 《科学技术与工程》2021,21(18):7635-7641
为进一步提高客户语音问句实体信息抽取的准确性,增强智能问答系统知识图谱中信息抽取技术的整体效果,首先对语义标注进行优化,随后在BiLSTM-CRF(bidirectional long short-term memory conditional random filed)基础上加入BERT(bidi-rectional encoder representation from transformers)模型对句子进行实体抽取学习.在具体实验中,以语音问句事件文本为数据来源,对其进行语义标注和实体抽取实验.结果 表明,在语义标注优化的基础上同时加入BERT改进模型,信息抽取结果均高于BiLSTM-CRF方法,且改进模型的调和平均值达到91.53%,即可为增强事件实体信息抽取提供实践意义.  相似文献   

16.
董哲  王亚  马传孝  李志军 《科学技术与工程》2022,22(23):10162-10168
为解决食品安全领域关系抽取数据集体量小且关系种类复杂,普通网络模型无法充分进行特征学习的问题,提出了一种融合对抗训练(Adversarial Training)和胶囊网络(Capsule Network)的食品安全领域关系抽取模型GAL-CapsNet。该模型使用双向长短期记忆网络提取文本序列的全局特征,并通过胶囊网络的动态路由机制获取高层次的局部特征,具有较强的特征提取能力,同时在嵌入层加入对抗训练提升模型的鲁棒性,从而有效提高了关系抽取任务的效果。在本文所用的食品安全领域数据集上的实验结果显示:对比其他深度神经网络方法,GAL-CapsNet在关系抽取任务中的精确率、召回率和F1值均有明显提升,分别达到了85.91%、82.82%、84.33%,证明了模型在食品安全领域数据集上的有效性。  相似文献   

17.
汉字是象形文字,其字形特征对于中文命名实体识别有着重要的作用。针对双向长短期记忆模型(bi-directional long short-term memory,BiLSTM)提取部首,命名实体识别准确率不高的问题,提出笔画组成编码器,用于获取汉字的字形特征,并将笔画字形特征向量和预训练的语言表征模型(bidirectional encoder representation from transformers,BERT)输出的字向量进行拼接,将拼接后的向量放入双向长短期记忆模型与条件随机场(conditional random field,CRF)相连的标注模型(BiLSTM-CRF)中进行命名实体识别。实验表明,所提的方法在Resume数据集上命名实体识别准确率有显著提升。相较于用卷积神经网络做编码器提取汉字字形特征,准确率高出0.4%。相较于使用BiLSTM提取的部首特征模型和加入词典的长短期记忆模型(Lattice LSTM)模型其准确率分别提升了4.2%、0.8%。  相似文献   

18.
针对人体运动动作图像提取传统方法仅能获取局部最佳解, 提取的特征序列不连续, 导致轮廓提取效果差的问题, 提出一种非刚性人体运动动作图像姿态轮廓提取算法. 首先, 对人体运动动作图像序列中的尺度不变特征变换(SIFT)进行提取预处理, 获取人体特征提取图, 设计一种人体运动序列顺序概率图模型, 以保证特征序列提取的连续性; 其次, 构建人体肢体外观模型, 基于该外观模型采用序列影像高精度轮廓提取算法提取当前人体运动动作帧的轮廓线. 实验结果表明, 该算法能提取连续的特征序列, 提取的人体姿态轮廓精确度较高, 且具有较高的效率和鲁棒性.  相似文献   

19.
刘琦  李建国 《科学技术与工程》2024,24(13):5538-5545
为解决转辙机故障诊断领域中存在的单一特征信息提取不足、单一诊断方法难以避免因方法局限性造成的分类误差,同时其存在一定程度的过拟合,以及泛化能力、鲁棒性不足的问题,提出了一种基于时空特征组合模型的故障诊断方法。首先,在ZYJ7电液转辙机的8种故障模式和正常模式所对应的油压曲线上提取时频域小波系数作为原始数据集,采用核主成分分析(KPCA)和长短期记忆网络(LSTM)提取其空间、时间特征,之后基于add思想构建时空特征集。其次,对卷积神经网络(CNN)、LSTM两分类器关键参数寻优后分别进行故障诊断,得到各个故障类型的概率值和误差系数。最后,利用误差倒数法对两分类器各个故障类型的概率值赋予权重,得到最终输出结果。仿真结果表明:CNN-LSTM组合模型诊断准确率达98.14%,较单一多层感知机(MLP)、CNN、LSTM模型准确率分别提升7.40%、5.55%、1.85%。可见此方法有效提高了转辙机诊断准确率,为集成学习模型在转辙机故障诊断领域的应用提供了一种思路。  相似文献   

20.
滚动轴承作为旋转机械的重要组成部分,其运行安全性受到大量关注,但传统的基于信号处理的时频分析故障诊断方法较为依赖专家知识从而难以广泛应用。结合应用较广的卷积神经网络和长短时记忆网络模型的优点-自动提取振动信号的深层特征信息以及可识别所提取的长时连续的振动信号时序特征信息,提出一种深度特征提取神经网络模型,将原始的振动信号作为模型输入,进而通过多层卷积与长短时记忆网络对振动信号进行故障特征信息提取,可以有效提取滚动轴承振动信号中的深层时序故障特征信息,进而准确辨识滚动轴承不同的故障模式,并且避免了复杂的信号预处理与人工进行信号特征提取的过程。通过凯斯西储大学滚动轴承故障实验的10类健康状态数据验证了所提方法的有效性,并对实验结果进行分析,解释了在迭代过程中出现精度波动的可能原因。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号