首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
通过结合2 738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含较强的语义表征能力的词向量;再使用Bi-LSTM获取更好的语义信息和词向量拼接以捕获长距离的语义特征;用CNN进行特征提取,加强局部特征的学习,并使用注意力池化层(Attentive-pooling)用以强化特征的表达;最后通过Softmax完成关系抽取任务.结果表明:该模型在SemEval-2010 Task 8公开数据集中F1值达到83.46%,证明了其有效性.且模型在新疆旅游领域语料的关系抽取任务中的F1值达到92.73%,优于目前的主流关系抽取模型.  相似文献   

2.
关系抽取是许多信息抽取系统中的一个关键步骤, 旨在从文本中挖掘结构化事实. 在应用传统的远程监督方法完成实体关系抽取任务时存在 2 个问题: ① 远程监督方法将语料库中的文本与已标注实体和实体间关系的知识库启发式地对齐, 并将对齐结果作为文本的标注数据, 这必然会导致错误标签问题; ② 目前基于统计学的方法过于依赖自然语言处理工具, 提取特征处理过程中生成的噪声积累严重影响抽取结果. 为了解决远程监督存在的弊端, 提出了一种基于注意力机制的端到端的分段循环卷积神经网络(convolutional neural network, CNN)模型. 为了检测更加细微的特征, 在网络输入层添加了注意力机制, 自动学习句子中与关系抽取相关的内容; 基于位置特征和词向量特征对句子进行编码, 并使用分段卷积神经网络(piecewise CNN, PCNN)抽取句子特征进行分类, 在网络中使用了效率较高的最大边界损失函数来衡量模型的性能. 该方法在 New York Times (NYT)数据集上的准确率比经典的 PCNN+MIL 模型提高了 2.0%, 比经典的 APCNN+D 模型提高了 1.0%, 与其他几种基线模型相比, 该模型准确率表现出色.  相似文献   

3.
传统三元组抽取任务的方面词与意见词的抽取相互关联,采用流水线(Pipeline)或联合(Joint)模型架构会存在误差传递、错误传播等问题.基于上述问题,本文设计基于位置提示的双通道循环网络(Position-prompt dual-channel recurrent neural network, PDRN)模型解决三元组抽取任务.采用预训练BERT模型生成词向量作为模型输入,通过双通道显示交互方法在多个循环中建立同步机制,作为两元组(方面、意见)抽取及配对,使用基于位置提示的BERT-BiLSTM模型进行情感极性判别.在3个三元组抽取数据集进行实验,F1值相较最好的流水线模型和同类联合模型提高了1%~2%,在ASOTE任务上F1值相较基线最高提升了2.9%.  相似文献   

4.
针对传统关系抽取模型依赖特征工程等机器学习方法, 存在准确率较低且规则较繁琐等问题, 提出一种BERT+BiLSTM+CRF方法. 首先使用BERT(bidirectional encoder representations from transformers)对语料进行预训练; 然后利用BERT根据上下文特征动态生成词向量的特点, 将生成的词向量通过双向长短期记忆网络(BiLSTM)编码; 最后输入到条件随机场(CRF)层完成对因果关系的抽取. 实验结果表明, 该模型在SemEval-CE数据集上准确率比BiLSTM+CRF+self-ATT模型提高了0.054 1, 从而提高了深度学习方法在因果关系抽取任务中的性能.  相似文献   

5.
海量新闻文本中往往涉及多个实体,并蕴含复杂多样的事件.为了挖掘这些实体、事件信息,先前的以事件为中心的事件抽取方法大多先检测事件,再抽取事件论元.受限于触发词和事件识别,该方法无法应用于真实工业场景下的新闻事件抽取.考虑到命名实体识别(named entity recognition, NER)的性能达到90%以上,提出了以目标实体为视角的事件抽取任务—目标依赖的事件识别(target-dependent event detection, TDED),旨在抽取出实体并识别其对应的事件.基于该任务,提出了先抽取实体再识别目标级事件类型的两阶段模型框架.该模型融合了事件关键词和句法依存距离特征,能够学习目标依赖的上下文信息.在构建好的真实中文金融数据集上的实验结果表明,该模型抽取性能较佳,即使在句中存在多个实体或事件的复杂情形下也能取得很好的性能表现.  相似文献   

6.
针对评价对象存在领域相关性这一特点,在条件随机场模型中结合领域词词典特征进行中文句子评价对象的抽取,然后利用领域规则对抽取结果进行处理.针对COAE2011任务三标注语料的抽取实验结果表明,结合领域词词典和领域规则对于利用线性链、跳跃链和层叠条件随机场模型的中文句子评价对象抽取方法可以有效地提高抽取的精度,并抽取出更多的评价对象.  相似文献   

7.
基于监督学习的同义关系自动抽取方法   总被引:1,自引:0,他引:1  
目的 解决从大规模文本中自动获取同义关系.方法 将同义关系抽任务取看成一个二值分类问题,将其分为训练阶段和抽取阶段,共4个处理模块:预处理、特征生成、模型训练和分类.结果 提出并建立了一种新的同义关系抽取模型,并给出了该模型的关键实现算法.结论 提出的方法 比基于模板方法 的F1值高出了24.4%,大幅度提高了同义关系抽取结果 的精度.同时提出的方法 有效地改善了基于模板方法 领域自适应性差的缺点,所定义的特征和特征的权重计算更适合于判定学习算法.  相似文献   

8.
命名实体识别是自然语言处理和信息提取的基本任务,传统专家命名实体识别方法存在过度依赖人工特征标注和分词效果、专家简介中大量专业新词无法识别等问题.本文提出一种基于多特征双向门控神经网络结构并结合条件随机场模型进行领域专家实体抽取方法.该方法首先通过构建领域专家语料库以训练实体抽取模型;接着,使用Bert方法进行字嵌入表...  相似文献   

9.
对肺结节的形状特征、边缘特征和内部特征进行准确分类,能够辅助影像科医生的日常诊断工作,提高影像报告的书写效率.针对这一问题,提出一种基于长短时记忆(LSTM)结构与注意力结构的多任务分类模型.该模型通过注意力机制融合各个任务间的共享特征,提高当前任务的特征抽取效果.LSTM结构分类器能够有效地筛选任务间的共享特征,提高模型的信息传递效率.实验表明,相较于传统多任务结构,所提模型在公开数据集LIDC-IDRI上能够取得更好的多特征分类效果,辅助医生快捷地获取肺结节特征信息.  相似文献   

10.
基于条件随机场的中文科研论文信息抽取   总被引:2,自引:1,他引:1  
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.  相似文献   

11.
对话系统的口语理解通常涉及意图识别和语义槽填充两个任务.目前意图和语义槽填充联合识别成为口语理解研究的主流方法.本文采用一种基于注意力机制(Attention Mechanism)的双向长短时记忆(Bi-directional long short-term memory,BiLSTM)模型,对呼和浩特市公交问路查询语句进行意图和语义槽填充的联合识别.实验结果表明,该模型在意图识别准确率和语义槽填充F1值方面,均达到了较好的水平,优于基于长短时记忆(long short-term memory,LSTM)模型的其他方法,并且该模型基于字切分的结果优于基于词切分的结果,证实了该方法的有效性.  相似文献   

12.
以高维分类为目标,从分类的准确率与模型解释性角度探讨了降维的必要性,分析了特征选择与抽取2类方法特点,并对常用的特征抽取方法,包括主成分分析(PCA)、偏最小二乘(PLS)和非负矩阵分解(NMF)进行了阐述.考虑到约减后的数据缺乏稀疏性与可解释性,提出了基于稀疏正则化的特征抽取模型,为高维特征降维提供了一种新思路.  相似文献   

13.
针对传统时间关系只应用在机器学习方向关系抽取的问题, 提出一种基于序列标注实体识别的关系抽取方法. 先构建双向长短期记忆网络(Bi-LSTM)模型进行特征提取, 再输入时间关系作为特征矩阵进行图卷积. 实验结果表明: 时间关系能提高因果关系抽取效果, 并且包含时间关系的Bi-LSTM+GCN模型能有效抽取因果事件; 带有时间关系的Bi-LSTM+GCN模型获得因果关系的抽取结果优于传统方法因果关系的抽取结果.  相似文献   

14.
针对情感分析问题中长句和短句进行情感分类时不同的建模特点,提出了一种基于联合深度学习模型的情感分类方法。该方法融合长短期记忆模型(LSTM)与卷积神经网络(CNN)对影视评论数据进行情感极性判别,该方法采用LSTM模型对上下文进行建模,通过逐词迭代得到上下文的特征向量,采用CNN模型从词向量序列中自动发现特征,并从局部抽取特征后将局部特征整合成全局特征来提高分类效果。所提出的方法在COAE2016评测的任务2的情感极性分类任务中,其系统准确率获得最好结果。  相似文献   

15.
董哲  王亚  马传孝  李志军 《科学技术与工程》2022,22(23):10162-10168
为解决食品安全领域关系抽取数据集体量小且关系种类复杂,普通网络模型无法充分进行特征学习的问题,提出了一种融合对抗训练和胶囊网络的食品安全领域关系抽取模型GAL-CapsNet。该模型使用双向长短期记忆网络提取文本序列的全局特征,并通过胶囊网络的动态路由机制获取高层次的局部特征,具有较强的特征提取能力,同时在嵌入层加入对抗训练提升模型的鲁棒性,从而有效提高了关系抽取任务的效果。在本文所用的食品安全领域数据集上的实验结果显示:对比其他深度神经网络方法,GAL-CapsNet在关系抽取任务中的精确率、召回率和F1值均有明显提升,分别达到了85.91%、82.82%、84.33%,证明了模型在食品安全领域数据集上的有效性。  相似文献   

16.
目前,细粒度情感分析已在观点挖掘、文本过滤等域获得广泛应用,通过细粒度情感分析,能完成更精准的文本理解和结果判断.其中,包含方面、观点和情感极性的情感三元组抽取任务是一个具有代表性的细粒度情感分析任务,且大多数相关研究是基于管道模型和端到端模型开展的.然而,一方面,管道模型本质为两阶段模型,存在错误传播的问题;另一方面,端到端模型也无法充分利用句子中各组成之间的联系,存在高层次语义关系捕获能力欠缺的问题.为解决以上问题,本文对句法和语义知识进行特征补充,提出一个基于语义增强和指导路由机制的情感三元组抽取方法(ASTE-SEGRM).首先,基于键值对网络学习源文本的句法特征和词性特征.区别于以往的建模方式,本文所提方法动态捕捉不同句法及词性类型的重要程度,并赋予不同的权重,以实现语义增强;其次,受启发于迭代路由机制,引入指导路由机制构建神经网络,使用先验知识指导情感三元组的抽取;最后,在四个基准数据集上的实验结果证明,本文所提方法优于数个基线模型.  相似文献   

17.
关系抽取任务旨在从文本中抽取实体对之间的关系,是当前自然语言处理领域的热门方向之一.由于中文具有复杂的句式和语法,导致现有的神经网络提取的特征以及语义表示能力较差,从而影响中文关系抽取的性能.汉字是象形文字,其字形结构在一定程度上隐含了字义,为此提出了包含字形级别实体表示的BERT_BI-GRU_Glyph模型.模型中...  相似文献   

18.
提出一种基于神经网络的方法实现细菌和栖息地的关系抽取,充分利用神经网络的特性实现对隐含的深层特征的自动学习,以避免传统人工特征设计的复杂性和冗余性.该方法利用单词以及实体属性的分布式向量丰富句法和语义信息,使用两个不同神经网络模型从不同角度进行关系抽取,并融合文档级别的分类结果,在生物医学自然语言处理Bio NLP-ST 2016共享任务的BB-event语料上进行实验,取得了不错的F1值,表明该方法在微生物生长环境关系抽取上具有良好的性能.  相似文献   

19.
Takagi-Sugeno-Kang(TSK)模糊系统的一致逼近能力和可解释性使其可以直观高效地描述复杂的非线性不确定系统,可以有效地应用于模式分类.然而,对于单调分类任务,现有的模糊分类算法并没有考虑单调数据存在的有序关系,因此这些算法对于单调分类任务在模型的复杂度和分类性能方面有待改进.针对此问题,提出了面向单调分类的简洁单调TSK模糊系统建模方法(Concise Monotonic TSK Fuzzy System for Monotonic Classification,CM-TSK-FS),引入有序互信息进行单调特征选择,然后利用抽取的特征来训练TSK模糊系统进行分类识别.该方法有如下优点:(1)由于对单调数据进行了特征选择,新方法降低了TSK模糊系统规则的复杂性,因而得到的模糊系统更加简洁;(2)由于在特征抽取时考虑了单调数据的特征值和决策值之间的单调性,使得训练的模型的分类性能也有了一定程度的提高.在多个单调数据集上进行了实验验证,实验结果表明:面向单调分类的简洁单调TSK模糊系统在处理单调数据集时,通过选取重要的单调数据特征,不仅可以降低其模型的复杂性,还可以提高分类精度.  相似文献   

20.
从应用的角度提出了一种用于半结构化文本的基于正则表达式的信息抽取方法.通过对单个样本Web页面生成DOM(document object model)树生成信息抽取任务的规则.抽取规则采用正则表达式的形式记录目标信息的页面特征,通过规则的执行完成信息的抽取.该方法采用了基于正则表达式的Web页面的预处理(约简)、Web页面DOM树的生成、抽取规则的生成和执行.由于在实际大批量的抽取工作中能够避免多次生成页面DOM树,因此批量信息抽取的速度提高了约10倍.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号