首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
事件抽取是自然语言处理领域的重要研究方向。传统的事件类型抽取系统采用分类方式,无法解决跨句子的事件角色和事件类型匹配问题。为了解决该问题,提出一种基于序列标注的事件联合抽取模型,结合卷积神经网络(convolutional neural networks, CNN)与长短期记忆网络(long short-term memory, LSTM)提取全局特征和局部特征;并在浅层LSTM层共享参数实现联合抽取,以序列标注方式抽取事件论元并匹配事件类型。实验结果表明,模型能有效提取司法领域的文档事件信息。  相似文献   

2.
端到端的事件抽取涉及两个子任务:事件检测和事件元素抽取,当前大多数研究工作并未解决元素抽取中角色重叠的问题,并且忽略了数据集提供的静态信息。文章提出一种基于两个独立编码器的事件抽取模型,通过词典增强的序列标注方法检测触发词和事件类型,再将事件类型、实体类型和边界信息作为元素抽取阶段的补充特征,使用多个角色二分类网络实现“分离式”的元素识别和角色分类,最后将基于静态数据统计得到的角色辨识度对所有分类器的损失函数加权求和,作为最终的损失函数,进而更好地拟合数据集特点。在两个公开的中文数据集ACE2005和DuEE上,实验F1值分别达到57.1%和76.1%,并且该方法有效提高了对角色重叠事件的识别准确率。  相似文献   

3.
刘继明  孙成  袁野 《科学技术与工程》2021,21(18):7635-7641
为进一步提高客户语音问句实体信息抽取的准确性,增强智能问答系统知识图谱中信息抽取技术的整体效果,首先对语义标注进行优化,随后在BiLSTM-CRF(bidirectional long short-term memory conditional random filed)基础上加入BERT(bidi-rectional encoder representation from transformers)模型对句子进行实体抽取学习.在具体实验中,以语音问句事件文本为数据来源,对其进行语义标注和实体抽取实验.结果 表明,在语义标注优化的基础上同时加入BERT改进模型,信息抽取结果均高于BiLSTM-CRF方法,且改进模型的调和平均值达到91.53%,即可为增强事件实体信息抽取提供实践意义.  相似文献   

4.
针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法. 新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取. 实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.  相似文献   

5.
针对事件时间关系不对称的问题,采用将事件表示映射到双曲空间的方法,进行事件时序关系抽取。通过简单的运算,用预训练的词向量与外部知识构建事件的词嵌入表示。在公开发布的数据集上的实验结果表明,模型的F1值比基线模型普遍高2%,能够提升事件时序关系抽取的效果。  相似文献   

6.
提出一种基于案例分析的文本数据抽取方法,通过将知识进行特征化表示,借助"用户特征—案例特征—案例知识"三者之间的映射关系和概念模块间的知识关联,完成复杂信息的知识抽取,同时引入增量式案例知识学习模型,有效地避免了因人工干预导致的知识拓展的不连续性,提高了抽取过程的识别效率.  相似文献   

7.
海量新闻文本中往往涉及多个实体,并蕴含复杂多样的事件.为了挖掘这些实体、事件信息,先前的以事件为中心的事件抽取方法大多先检测事件,再抽取事件论元.受限于触发词和事件识别,该方法无法应用于真实工业场景下的新闻事件抽取.考虑到命名实体识别(named entity recognition, NER)的性能达到90%以上,提出了以目标实体为视角的事件抽取任务—目标依赖的事件识别(target-dependent event detection, TDED),旨在抽取出实体并识别其对应的事件.基于该任务,提出了先抽取实体再识别目标级事件类型的两阶段模型框架.该模型融合了事件关键词和句法依存距离特征,能够学习目标依赖的上下文信息.在构建好的真实中文金融数据集上的实验结果表明,该模型抽取性能较佳,即使在句中存在多个实体或事件的复杂情形下也能取得很好的性能表现.  相似文献   

8.
针对诉讼案件违法事实要素抽取效果依赖领域专业知识的特点,提出一种基于transformer双向编码器表示(bidirec-tional encoder representations from transformer,BERT)的诉讼案件违法事实要素自动抽取方法.首先,通过构建领域知识并采用谷歌BERT预训练语言模型进行训练得到拟合诉讼案件领域数据的模型参数和中文预训练字嵌入向量作为模型的输入,得到具有上下文相关的语义表示,以提高词嵌入的上下文语义质量.其次,采用循环卷积神经网络对文本进行编码并获取在文本分类任务中扮演关键角色的信息,提升案件违法事实要素抽取的效果.最后,采用focal函数作为损失函数关注难以区分的样本.违法事实要素抽取的工作是通过对文本标签进行分类得到的.实验测试表明,该方法对诉讼案件要素抽取的F1值为86.41%,相比其他方法性能均有提高.对模型注入领域内知识,也可以提高模型抽取准确率.  相似文献   

9.
合理利用城市轨道交通安全事件案例对突发事件下辅助制定应急决策具有重大意义.目前,中国轨道交通运营商存储了大量的安全事件案例,但大多以自由化或半自由化文本的形式存储在数据库中,使用率较低.为提高城市轨道交通安全事件案例的使用效率,提出了基于规则的信息抽取方法,将城市轨道交通安全事件案例的自由文本转化为用共性知识元表示的结构化数据.通过指标计算,所提出的方法可以以较高的准确率和召回率对安全事件要素进行抽取,可为突发事故时的应急决策制定提供高效的数据支撑.  相似文献   

10.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit,GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

11.
针对局部线性嵌入算法使用欧氏距离计算非对齐样本相似性时, 受数据位置差影响较大, 导致度量精度较低, 影响算法特征提取精度的问题, 提出一种基于信息熵度量的局部线性嵌入算法. 首先利用信息熵统计样本特征间的混乱程度, 提高划分局部邻域的准确性; 然后建立局部重构模型, 挖掘出流形的本质结构; 最后利用局部结构构建低维重构模型, 以获得样本的显著特征. 通过在轴承数据集上的实验证明了该算法在特征提取方面的有效性.  相似文献   

12.
为充分利用表征过程运行工况的数据特征信息,提高化工过程的故障检测性能,提出一种基于动态结构保持主元分析(DSPPCA)的过程故障检测方法。首先对原始数据采用变量相关性分析建立自回归模型,构建包含动态特征的数据集,进一步综合考虑主元分析法(PCA)和局部线性嵌入(LLE)流形学习算法中数据点之间的近邻关系,融合得出新的目标函数,同时,运用局部线性回归的方法获得高维样本的嵌入映射,特征提取后在特征空间和残差空间分别构造监控统计量进行故障检测。Swiss-roll数据集的降维结果及TE过程的仿真研究结果表明,DSPPCA算法可以取得较好的特征提取效果,具有较高的故障检测性能。  相似文献   

13.
In order to achieve failure prediction without manual intervention for distributed systems,a novel failure feature analysis and extraction approach to automate failure prediction is proposed.Compared with the traditional methods which focus on building heuristic rules or models,the autonomic prediction approach analyzes the nonlinear correlation of failure features by recognizing failure patterns.Failure data are sorted according to the nonlinear correlation and failure signature is proposed for autonomic prediction.In addition,the Manifold Learning algorithm named supervised locally linear embedding is applied to achieve feature extraction.Based on the runtime monitoring of failure metrics,the experimental results indicate that the proposed method has better performance in terms of both correlation recognition precision and feature extraction quality and thus it can be used to design efficient autonomic failure prediction for distributed systems.  相似文献   

14.
现有结合特征提取与预测模型的方法不能准确把握金融时间序列的混沌性与交互性,导致预测精度不高。针对此问题,提出一种基于二次分解与长短期记忆(long short term memory, LSTM)网络的金融时间序列预测算法。使用变分模态分解方法与集成经验模态分解方法依次解析金融时间序列数据,得到能表达数据混沌性特征的模态;将模态信息输入到融合有因子分解机(factorization machine, FM)的长短期记忆网络模型中,融合获取到的长记忆性特征与交互性特征,进而预测最终的结果;选取沪深300指数的历史数据作为实验数据集,通过多组对比实验验证算法的有效性。实验结果表明,提出的算法可以有效提升模型的预测能力,同时表达金融时间序列的混沌性、长记忆性、交互性。  相似文献   

15.
对数据库水印安全问题进行了研究.提出了基于字符型属性的数据库数字水印方法.将水印信息表示为不可见的水印信号,并根据元组哈希值和字符属性值长度随机确定水印信号的嵌入位置,使水印安全性得到保障.重点分析了在元组添加、元组删除和属性值修改三种典型攻击中水印提取失败情况,以及由此引起的对水印匹配率的影响.最后在对实验数据分析讨论的基础上提出了数据库水印方案设计的原则.  相似文献   

16.
为了能够准确反映信息传播对于应急物资需求的影响以及有效优化应急配送车辆的路径,构建了基于双层扩散网络的需求预测模型和改进的离散人工蜂群算法(进化蜂群算法)。首先,在分析扩散网络中事件层和信息层关系的基础上构建了物资需求预测模型。其次,在进化蜂群算法中,依据适应度值和历史进化程度来甄别优秀信息,并融合了交叉算子和变异算子使蜜源得以不断进化,从而充分挖掘了蜂群价值并有效提升了迭代效率。仿真实验结果表明,应急物资得以被短时高效地配送到所需区域,从而验证了所构建的模型和算法能够有效求解信息传播影响下的应急车辆路径多目标优化问题。  相似文献   

17.
针对当前大多数知识图谱嵌入方法对实体和关系的表示能力低、难以处理复杂关系的问题,提出一种基于四元数图神经网络的知识图谱嵌入方法,用于解决知识图谱的链路预测问题。该方法为了包含更丰富的关系信息,将四元数引入到知识图谱嵌入中对实体和关系建模,并考虑两者之间的共现关系。模型利用勒维图变换将知识图谱中的实体和关系转换为图网络中的节点,采用两者的共现关系构建图中的边;将四元数图神经网络(quaternion graph neural networks,QGNN)作为编码器模块,学习图节点的四元数嵌入;利用四元数空间内的哈密顿乘积构造评分函数对生成三元组进行排序。实验结果表明,所提模型能够很好地捕捉到实体与关系之间潜在的相互依赖关系,在知识图谱嵌入方面优于现有的嵌入模型。  相似文献   

18.
针对多轮会话中的Non-Sentential Utterances (NSUs)问题, 结合当前在自然语言处理领域广泛使用的预训练语言模型, 将Masked Language Model用于多轮会话NSUs的重写任务, 提出Masked Rewriter Model。与基于Seq2Seq的重写模型相比, 重写效果提升明显。根据NSUs重写任务特点, 将Masked Language Model与Pointer Network相结合, 提出基于Masked-Pointer Rewriter Model的多轮会话重写模型, 利用指针网络, 提升重写模型对上文信息的关注程度, 在BERT Masked Rewriter模型的基础上进一步提升重写效果。  相似文献   

19.
中文事件抽取通常使用循环神经网络(recurrent neural network, RNN)来进行事件和事件要素的抽取, 但 RNN 在处理长度较长的词语时容易丢失重要信息, 为此提出一种组合卷积神经网络(convolutional neural network, CNN)与双向长短期记忆(bidirectional long short-term memory, Bi-LSTM)网络的中文事件抽取模型 CNN-Bi-LSTM-CRF, 其中 CRF (conditional random field) 为条件随机场. 采用基于注意力机制和语义特征生成的字词联合向量, 使用 CNN 和 Bi-LSTM 模型对字词联合向量进行处理, 以获取其隐含表示, 最后通过 CRF 得出预测结果. 实验结果表明, 所提出的方法与其他现有的中文事件抽取方法相比, 准确率有明显提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号