共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统关系抽取模型依赖特征工程等机器学习方法, 存在准确率较低且规则较繁琐等问题, 提出一种BERT+BiLSTM+CRF方法. 首先使用BERT(bidirectional encoder representations from transformers)对语料进行预训练; 然后利用BERT根据上下文特征动态生成词向量的特点, 将生成的词向量通过双向长短期记忆网络(BiLSTM)编码; 最后输入到条件随机场(CRF)层完成对因果关系的抽取. 实验结果表明, 该模型在SemEval-CE数据集上准确率比BiLSTM+CRF+self-ATT模型提高了0.054 1, 从而提高了深度学习方法在因果关系抽取任务中的性能. 相似文献
2.
针对传统时间关系只应用在机器学习方向关系抽取的问题,提出一种基于序列标注实体识别的关系抽取方法.先构建双向长短期记忆网络(Bi-LSTM)模型进行特征提取,再输入时间关系作为特征矩阵进行图卷积.实验结果表明:时间关系能提高因果关系抽取效果,并且包含时间关系的Bi-LSTM+GCN模型能有效抽取因果事件;带有时间关系的B... 相似文献
3.
4.
5.
基于深层特征抽取的日文词义消歧系统 总被引:1,自引:0,他引:1
词义消歧的特征来源于上下文.日文兼有中英文的语言特性,特征抽取更为复杂.针对日文特点,在词义消歧逻辑模型基础上,利用最大熵模型优良的信息融合性能,采用深层特征抽取方法,引入语义、句法类特征用于消解歧义.同时,为避免偏斜指派,采用BeamSearch算法进行词义序列标注.实验结果表明,与仅使用表层词法类特征方法相比,本文构造的日文词义消歧系统的消歧精度提高2%~3%,动词消歧精度获得5%的改善. 相似文献
6.
针对关系抽取任务中文本特征提取不充分及核心词表现弱的问题,提出了一种多特征注意力卷积神经网络的实体关系抽取方法.利用位置、词性及实体标签作为输入特征,充分捕获文本信息,构建注意力模型,获得单词与目标实体之间的相关性,并将注意力机制与卷积神经网络相融合以进行关系预测.以新疆旅游领域为研究对象,总结归纳15种实体关系.采用... 相似文献
7.
传统三元组抽取任务的方面词与意见词的抽取相互关联,采用流水线(Pipeline)或联合(Joint)模型架构会存在误差传递、错误传播等问题.基于上述问题,本文设计基于位置提示的双通道循环网络(Position-prompt dual-channel recurrent neural network, PDRN)模型解决三元组抽取任务.采用预训练BERT模型生成词向量作为模型输入,通过双通道显示交互方法在多个循环中建立同步机制,作为两元组(方面、意见)抽取及配对,使用基于位置提示的BERT-BiLSTM模型进行情感极性判别.在3个三元组抽取数据集进行实验,F1值相较最好的流水线模型和同类联合模型提高了1%~2%,在ASOTE任务上F1值相较基线最高提升了2.9%. 相似文献
8.
吴友蓉 《科技情报开发与经济》2010,20(7):89-90
介绍了目前最流行的知识抽取方法,分析比较了Amilcare、TEXTRUNNER、Pythor、MnM、Text2Onto、SELKAS等知识抽取系统。 相似文献
9.
针对通用领域的事件论元抽取研究中角色信息利用不足和论元间缺少交互两个问题,提出角色信息引导的多轮事件论元抽取模型,用于增强文本的语义信息和论元之间的交互能力,提升事件论元抽取的性能。首先,为了更好地利用角色知识来引导论元的抽取,该模型根据角色定义构造角色知识,对角色信息和文本独立编码,并采用基于注意力机制的方法获取标签知识增强的文本表示,进而采用增强嵌入来预测各角色论元的起始和结束位置。同时,为了在抽取过程中充分利用事件论元之间的交互,受多轮对话模型的启发,设计一种多轮事件论元抽取算法。该算法参照“先易后难”的自然逻辑,每次选择预测概率最大,也是最容易确定的角色进行抽取。在论元抽取过程中,为了对论元之间的交互进行建模,模型引入历史嵌入,并在每一次预测结束后更新历史嵌入,帮助下一轮事件论元的抽取。实验结果表明,角色信息的引导和多轮抽取算法均有效地提升了论元抽取的性能,使得该模型的表现优于其他基线模型。 相似文献
10.
信息抽取任务旨在从非结构化的文本中抽取出结构化的信息,帮助将海量信息进行自动分类、提取和重构,提高信息的利用率.目前,基于深度神经网络的信息抽取技术已经成为自然语言处理领域最重要的研究主题之一,它提供了分析非结构化文本的有效手段,是实现大数据资源化、知识化和普适化的核心技术,此外进一步为更高层面的应用和任务提供了支撑.... 相似文献
11.
设计了一个中文姓名抽取系统, 该系统采用神经网络进行汉语句子的分词处理, 根据姓名后置特征词进行姓名的抽取, 成功解决了尾字和下文成词的姓名抽取问题. 以1998年1月份《人民日报》语料库中含有此类姓名的语句作为测试数据,结果表明, 姓名抽取的召回率和精确度较现有方法都有很大提高. 相似文献
12.
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种植资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。文献格式为PDF文档,对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(Optical Character Recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F值为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。 相似文献
13.
14.
实体关系抽取作为文本挖掘和信息抽取的核心任务,是知识图谱构建过程中的关键一环。然而人工建立大规模有标签的数据耗时耗力。使用小样本学习来进行关系抽取,仅仅需要少量样本实例就能使模型学会区分不同关系类型的能力,从而缓解大量无标签数据带来的标注压力。本文对中文关系抽取数据集FinRE进行了重构使之适用于少样本学习,并引入了语义关系网络HowNet对实体进行更为精确的语义划分,并在此基础上使用双重注意力机制提高句子编码质量,从而提高了模型在面对噪声数据时的效能,减轻了长尾关系的影响。使用本文的方法在该中文数据集进行了评估,与原始原型网络相比,基于句子级别与实体级别的注意力机制的原型网络在抽取准确率上提升了1%~2%的性能。 相似文献
15.
基于会话的推荐是为了解决匿名用户的推荐问题,是推荐系统中的一个重要分支.现有的采用图神经网络的研究方法尽管已经取得了不错的效果,但是它们无法捕获更准确的用户会话间的潜在信息.针对上述问题,论文提出了基于会话的图卷积递归神经网络(GCRNN)推荐模型,通过图卷积网络层捕捉用户会话图的结构信息,利用递归神经网络层来获得会话的时序信息和会话之间的依赖关系,以此捕获更丰富更准确的用户会话间潜在信息,从而提升推荐效果.模型在两个公开数据集上进行广泛的实验,结果表明GCRNN优于现有的研究方法. 相似文献
16.
为了从人工神经网络中抽取规则,提出一种新的规则抽取算法。网络被训练并剪枝后,将隐节点的激活值离散化,对输入到隐节点的权重进行聚类,聚类过程中可根据隐节点的激活值动态调整权值聚类数目,进而高效准确地抽取规则。实验结果表明,该算法可明显降低规则抽取的时间复杂度,减少生成规则的数量。 相似文献
17.
中文事件抽取通常使用循环神经网络(recurrent neural network, RNN)来进行事件和事件要素的抽取, 但 RNN 在处理长度较长的词语时容易丢失重要信息, 为此提出一种组合卷积神经网络(convolutional neural network, CNN)与双向长短期记忆(bidirectional long short-term memory, Bi-LSTM)网络的中文事件抽取模型 CNN-Bi-LSTM-CRF, 其中 CRF (conditional random field) 为条件随机场. 采用基于注意力机制和语义特征生成的字词联合向量, 使用 CNN 和 Bi-LSTM 模型对字词联合向量进行处理, 以获取其隐含表示, 最后通过 CRF 得出预测结果. 实验结果表明, 所提出的方法与其他现有的中文事件抽取方法相比, 准确率有明显提升. 相似文献
18.
新兴媒体时代的发展使大量的信息涌入了我们的视线和大脑,广大网名用户在面对网上的信息时需要找寻符合自己的资料,在这种情况下,信息抽取发展起来了。国内的信息抽取技术起步时间较短,又由于中文信息的复杂性,所以在中文信息抽取领域,此技术还不是特别的成熟。在本文中,作者对基于规则的中文人名抽取技术进行了初步探索和研究。 相似文献
19.
事件检测是自然语言处理领域的重要任务之一,其结果可以有效支撑信息抽取、文本分类和事件推理等下游任务. 预训练语言模型BERT在事件检测任务上取得了显著的成绩,然而该类方法无法有效获取长距离和结构化的文本信息. 为了缓解该问题,本文提出基于反馈网络的图卷积神经网络模型进行文本结构信息捕获,同时这种新方法能够有效解决图卷积神经网络带来的语义信息衰减性问题. 本文首先使用BERT预训练模型获取文本的语义特征,然后使用融入反馈网络的图卷积神经网络提取文本的句法结构特征,最终使用多分类器实现对事件触发词的识别和分类.公开数据集ACE 2005上的实验结果表明,本文提出的事件检测方法在事件触发词识别和分类任务上的F1值分别达到了74.46%和79.49%,较现有工作平均提高了4.13%和4.79%. 相似文献
20.
以往的词汇搭配抽取统计评价方法具有大致相同的效果,它们各有优劣,可以实现优势互补.该文提出多策略融合的搭配抽取方法. 首先,将互信息法用于衡量二元独立性,淘汰候选的无关二元组. 其次,对比χ2检验法与t检验法,发现使用χ2检验法能够更合理地反映搭配组合的同现性和期待性;然后,使用对数似然比检验法,解决其他方法无法克服的稀疏数据问题. 此外,加入构词法的启发式规则,最终形成一个多策略融合的方法.实验结果表明该方法的准确率较高,在实际应用中取得良好效果. 相似文献