首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
跨文本命名实体同指是指出现在多个文本中的相同名字指称相同对象.同指消解则是判断相同的名字是否指称相同对象的过程.跨文本同指消解对于多文本摘要和信息融合等具有重要作用.针对中文中最典型的命名实体——人名,研究了使用层次聚类方法在进行跨文本同指消解中的2个重要问题:特征选择和聚类停止条件判断.  相似文献   

2.
指代消解是自然语言处理中的关键和热点问题之一,而语料库的研究是指代消解研究中的基础性工作.在中文突发事件语料库(Chinese emergency corpus, CEC)的基础上,通过自动生成和人工标注的方法,构造一个面向事件的中文指代语料库.与传统指代语料库不同,该语料库针对的是以事件作为知识表示单元的文本,对事件中各要素和事件的指代进行标注,其构建对面向事件的中文指代消解的研究十分关键,提供了更多的资源支持.同时,对CEC中各事件要素和事件的指代进行了统计和分析,为今后的工作提供了一些铺垫.  相似文献   

3.
针对目前对事件同指关系的研究中多采用事件对分类或聚类方法而忽略事件相互之间内在联系的问题, 提出一个中文事件同指消解的全局优化模型, 用于减少因分类器错误造成的同指事件链不一致问题。该模型利用对称性、传递性、触发词、论元角色、事件距离等多种约束条件, 将同指消解转化成整数线性规划问题。实验结果表明, 与分类器方法相比, 全局优化模型的F1值提高4.20%。  相似文献   

4.
事件指代消解根据指代词的不同可以分为代词的事件指代消解和名词短语的事件指代消解。研究了语义角色对名词短语的事件指代消解系统的影响,根据SVM机器学习的方法进行英文事件的指代消解,通过在计算事件语义相似度的元组(语义角色)中加入时间和地点元素改进语义特征来提高事件指代消解系统的性能。Onto Notes 4.0语料库上的实验结果显示,引入改进的语义特征后,与基准系统相比系统的准确率和F值均有所提高。验证了时间和地点元素对事件指代消解的正面影响。  相似文献   

5.
新闻事件检测是自动检测新闻文本中出现的相关事件,需要大量人力设计模板,而且难以获取句中隐含的语义信息,识别触发词时多存在歧义.为解决以上问题,利用融合依存句法信息的卷积神经网络(Dependency Parsing Convolutional Neural Networks,DPCNN),针对句子级别越南语新闻事件进行检测.该模型在编码过程中融合了词义、位置信息、词性信息和命名实体信息,利用传统卷积编码连续词之间的特征,利用融合依存句法信息的卷积编码非连续词之间的特征,再融合两部分特征作为事件编码,进而实现事件检测.实验结果表明,该方法在越南语新闻事件检测中取得了很好的效果.  相似文献   

6.
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.  相似文献   

7.
海量新闻文本中往往涉及多个实体,并蕴含复杂多样的事件.为了挖掘这些实体、事件信息,先前的以事件为中心的事件抽取方法大多先检测事件,再抽取事件论元.受限于触发词和事件识别,该方法无法应用于真实工业场景下的新闻事件抽取.考虑到命名实体识别(named entity recognition, NER)的性能达到90%以上,提出了以目标实体为视角的事件抽取任务—目标依赖的事件识别(target-dependent event detection, TDED),旨在抽取出实体并识别其对应的事件.基于该任务,提出了先抽取实体再识别目标级事件类型的两阶段模型框架.该模型融合了事件关键词和句法依存距离特征,能够学习目标依赖的上下文信息.在构建好的真实中文金融数据集上的实验结果表明,该模型抽取性能较佳,即使在句中存在多个实体或事件的复杂情形下也能取得很好的性能表现.  相似文献   

8.
半监督中文事件抽取系统的性能依赖于种子模板,但自动获取的种子模板的表达方式与覆盖范围有限,导致某些语言现象下的事件实例很难被识别。为解决这一难题,基于篇章内的事件一致性理论提出基于同指事件与相关事件的推理方法,根据已抽取的事件实例来推理可能有同指关系与关联性的其它事件,从而进一步提高半监督中文事件抽取系统的性能。在ACE 2005中文语料上的测试表明,该方法可有效地提高半监督中文信息事件抽取系统的性能。  相似文献   

9.
针对中文篇章中的零指代问题,提出一种基于中英文可比较语料进行中文零指代识别和消解的方法,并提出英文对等句的概念。利用对等句,重新定义句子间隔,并引入双语词对齐特征。在基准平台基础上,从零指代项识别和零指代项消解两个方面进行研究。在Onto Notes5.0语料上的实验结果表明,与目前性能最好的系统相比,新提出的基于中英对等语料的中文零指代方法取得更好的性能。  相似文献   

10.
本文讨论现代汉语篇章中名词性词语的同指选择问题,探讨信息传递对同指选择的制约关系。说话人进行同指选择,与信息传递的需要有密切的联系。为适应信息传递的经济原则,简略前指词语的语言形式和语义内涵来表达同指;为强化重要的信息,添加部分词语来表达同指;为丰富信息量,交替使用不同的词语来表达同指。  相似文献   

11.
针对指代消解一直是自然语言处理中的核心问题, 提出一种利用DBN (deep belief nets)模型的Deep Learning 学习机制进行基于语义特征的指代消解方法。DBN模型由多层无监督的RBM (restricted Boltzmann machine)网络和一层有监督的BP (back-propagation)网络组成, RBM网络确保特征向量映射达到最优, 最后一层 BP 网络可以对RBM网络的输出特征向量进行分类, 从而训练指代消解分类器。在 ACE04 英文语料及ACE05中文语料上进行测试, 实验结果表明, 增加RBM训练层数可以提高系统性能。此外, 引入对特征集 合的抽象分层因素, 也对系统性能的提升产生积极作用。  相似文献   

12.
Chinese multi-document personal name disambiguation   总被引:2,自引:0,他引:2  
This paper presents a new approach to determining whether an interested personal name across doeuments refers to the same entity. Firstly,three vectors for each text are formed: the personal name Boolean vectors denoting whether a personal name occurs the text the biographical word Boolean vector representing title, occupation and so forth, and the feature vector with real values. Then, by combining a heuristic strategy based on Boolean vectors with an agglomeratie clustering algorithm based on feature vectors, it seeks to resolve multi-document personal name coreference. Experimental results show that this approach achieves a good performance by testing on "Wang Gang" corpus.  相似文献   

13.
命名实体在文本中是承载信息的重要单元,而微博作为一种分享简短实时信息的社交网络平台,其文本长度短、不规范,而且常有新词出现,这就需要对其命名实体进行准确的理解,以提高对文本信息的正确分析。提出了基于多源知识的中文微博命名实体链接,把同义词词典、百科资源等知识与词袋模型相结合实现命名实体的链接。在NLP&CC2013中文微博实体链接评测数据集进行了实验,获得微平均准确率为92.97%,与NLP&CC2013中文实体链接评测最好的评测结果相比,提高了两个百分点。  相似文献   

14.
刘继明  孙成  袁野 《科学技术与工程》2021,21(18):7635-7641
为进一步提高客户语音问句实体信息抽取的准确性,增强智能问答系统知识图谱中信息抽取技术的整体效果,首先对语义标注进行优化,随后在BiLSTM-CRF(bidirectional long short-term memory conditional random filed)基础上加入BERT(bidi-rectional encoder representation from transformers)模型对句子进行实体抽取学习.在具体实验中,以语音问句事件文本为数据来源,对其进行语义标注和实体抽取实验.结果 表明,在语义标注优化的基础上同时加入BERT改进模型,信息抽取结果均高于BiLSTM-CRF方法,且改进模型的调和平均值达到91.53%,即可为增强事件实体信息抽取提供实践意义.  相似文献   

15.
针对现有的语义Web 中对象共指的消解工作研究不足,提出了一种异构Web数据流对象共指消解的技术.首先,定义了Web数据流对象的对象共指冲突识别与消解框架;然后,提出了一种基于描述逻辑的对象共指识别技术,归纳给出了描述逻辑的层次依赖关系并提出了基于依赖图的冲突遍历识别算法;并且,在冲突消解方面,定义了冲突的三种类型、冲突消解匹配模式与仲裁消解算法;最后,分别用测试集检验了本文提出的异构Web数据流冲突识别与消解技术的应用效果.  相似文献   

16.
针对危险化学品实体识别及关系识别的问题,本文基于双向长短期记忆网络连接条件随机场(Bidirectional Long Short-Term Memory with Conditional Random Field, BiLSTM-CRF)模型,通过引入双向编码器表示(Bidirectional Encoder Representation from Transformers, BERT)模型结合多头自注意力机制,提出了一种预训练命名实体模型BERT-BiLSTM-self-Attention-CRF,通过对危险化学品的文本进行字符级别编码,得到基于上下文信息的字向量,增强了模型挖掘文本全局和局部特征的能力。实验结果表明,在自行构建的数据集上,本文模型优于其他传统模型,其F1值为94.57%。  相似文献   

17.
未链接实体分类是实体链指(Entity Linking, EL)任务中的重要研究内容之一。现有方法存在上下文语义信息不充分、分类准确率低等问题,导致实体链指任务表现不佳。本研究提出一种融合生成式模型的知识增强实体链指方法。该方法将实体链指分为两个子模块,即候选实体排序模块和未链接实体分类模块。本研究基于高精度的候选实体排序模块,获得高质量的知识扩展信息,并对未链接实体分类任务进行知识增强;针对未链指实体提及的分类问题,提出一套生成式框架,该框架能够取得超过基线模型的性能。本研究方法在2020年全国知识图谱与语义计算大会(CCKS2020)评测任务二的中文短文本实体链指数据集上取得了目前最佳性能(整体F值为91.76%),证明知识增强和生成式框架的引入能提高模型的泛化能力,缓解未链接实体分类中的信息不充分问题。  相似文献   

18.
现有的联合知识表示学习模型使用实体描述作为辅助信息来提升表示效果,忽略了互联网中大量有价值的信息。为此,提出一种融合属性信息的知识表示学习方法(AIKR)。首先抓取实体的不同属性,并通过莱文斯坦距离从语料库中匹配属性对应的说明文本;然后利用卷积神经网络对说明文本进行编码;最后将得到的实体属性表示与翻译模型生成的结构表示相结合进行联合学习。实验结果表明,相比仅利用实体描述的方法,融合属性信息的知识表示方法可以学习到更多的语义信息,取得了更好的表示效果。  相似文献   

19.
针对计算机各语言间的无岐义映射问题, 提出一种从自然语言向SPARQL语言映射过程中的歧义消解算法. 该算法基于自然语言的特征, 拟合知识丰富程度和文本相似度消解实体映射过程中的歧义性, 拟合语义权重度和文本相似度消解关系映射过程中的歧义性. 实验结果表明, 该算法效果较好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号