首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
现有的中文事件触发词抽取方法大多数采用特征工程和触发词扩展方法, 无法利用同一文档中各个触发词实例之间的内在关系。为了解决上述问题, 基于马尔科夫逻辑网络(MLN), 利用核心词素, 训练语料中触发词实例填充真假事件的概率, 以及触发词实例间的关系等信息来推导测试集中缺乏有效上下文信息和低可信度的触发词实例。在ACE 2005 中文语料上的实验结果表明, 与基准系统相比, 该方法在触发词识别和事件类型分类阶段F1值分别提高3.65%和2.51%。  相似文献   

2.
为了解决现有事件检测方法存在语料稀疏和触发词一词多义导致的触发词抽取不准确以及类型判断错误等问题,该文将双向Transformer编码表示(BERT)的预训练模型与条件随机场(CRF)结合,并联合多任务学习,提出了一种基于BERT-CRF模型与多任务学习的事件检测方法(MBCED)。该方法同时进行事件检测任务和词义消歧任务,将词义消歧任务中学习到的知识转移到事件检测任务中,既补充了语料,也缓解了一词多义所导致的触发词分类不准确问题。在ACE2005数据集上的传统事件检测模型对比实验结果表明,与动态多池卷积神经网络(DMCNN)、基于循环神经网络的联合模型(JRNN)、基于双向长短期记忆和条件随机场(BiLSTM-CRF)的联合模型、BERT-CRF方法相比,MBCED方法触发词识别的F值提升了1.2%。多任务学习模型对比实验结果表明,与基于多任务深度学习的实体与事件联合抽取(MDL-J3E)模型、基于共享BERT的多任务学习(MSBERT)模型、基于CRF多任务学习的事件抽取模型(MTL-CRF)相比,MBCED在触发词识别和触发词分类2个子任务上的准确率都较好。  相似文献   

3.
研究了基于支持向量机(Support Vector Machine,SVM)方法下的生物医学事件触发词识别的问题.利用SVM对事件抽取的过程进行分类,建立相应的模型来对生物医学事件中的触发词进行识别,得到了相应的实验结果,并验证了此方法的可行性.  相似文献   

4.
针对维吾尔语事件时序关系识别问题,提出了一种结合注意力机制的双向长短时记忆模型.基于维吾尔语语言及事件时序关系的特点,抽取13项基于事件间内部结构信息的特征.将词向量作为双向长短时记忆模型的输入,挖掘给定事件句隐含的上下文语义信息.结合事件触发词建立注意力机制,获取该事件句的事件语义特征.将事件内部结构特征和语义特征相融合,作为softmax层的输入,进而完成事件时序关系的识别.实验结果表明,该方法在获取事件句隐含语义信息的同时也能获取对应的事件语义特征.融合事件内部结构特征后,识别准确率为89.42%,召回率为86.70%,衡量模型整体性能的F值为88.03%,从而证明了该方法在维吾尔语事件时序关系识别任务上的有效性.  相似文献   

5.
事件检测是自然语言处理领域的重要任务之一,其结果可以有效支撑信息抽取、文本分类和事件推理等下游任务. 预训练语言模型BERT在事件检测任务上取得了显著的成绩,然而该类方法无法有效获取长距离和结构化的文本信息. 为了缓解该问题,本文提出基于反馈网络的图卷积神经网络模型进行文本结构信息捕获,同时这种新方法能够有效解决图卷积神经网络带来的语义信息衰减性问题. 本文首先使用BERT预训练模型获取文本的语义特征,然后使用融入反馈网络的图卷积神经网络提取文本的句法结构特征,最终使用多分类器实现对事件触发词的识别和分类.公开数据集ACE 2005上的实验结果表明,本文提出的事件检测方法在事件触发词识别和分类任务上的F1值分别达到了74.46%和79.49%,较现有工作平均提高了4.13%和4.79%.  相似文献   

6.
提出一种融合多模型和高置信度词典的事件线索识别方法,将高置信度词典特征分别加入最大熵模型和条件随机场模型,然后融合两个模型的结果,旨在提高触发词识别的召回率和整体性能。针对事件真伪性识别任务,进一步考察否定词或不确定词与触发词的物理位置距离和依存路径距离等特征,提高事件真伪性识别的性能。实验结果显示,针对触发词识别和事件真伪性识别任务,与仅使用最大熵模型相比,所提出的融合多模型与高置信度词典的方法能够提高触发词识别的性能6.43%,提高事件真伪性识别的性能1.69%。  相似文献   

7.
基于双重注意力模型的微博情感分析方法   总被引:1,自引:0,他引:1  
微博情感分析是获取微博用户观点的基础。该文针对现有大多数情感分析方法将深度学习模型与情感符号相剥离的现状,提出了一种基于双重注意力模型的微博情感分析方法。该方法利用现有的情感知识库构建了一个包含情感词、程度副词、否定词、微博表情符号和常用网络用语的微博情感符号库;采用双向长短记忆网络模型和全连接网络,分别对微博文本和文本中包含的情感符号进行编码;采用注意力模型分别构建微博文本和情感符号的语义表示,并将两者的语义表示进行融合,以构建微博文本的最终语义表示;基于所构建的语义表示对情感分类模型进行训练。该方法通过将注意力模型和情感符号相结合,有效增强了对微博文本情感语义的捕获能力,提高了微博情感分类的性能。基于自然语言处理与中文计算会议(NLPCC)微博情感测评公共数据集,对所提出的模型进行评测,结果表明:该模型在多个情感分类任务中都取得了最佳效果,相对于已知最好的模型,在2013年的数据集上,宏平均和微平均的F1值分别提升了1.39%和1.26%,在2014年的数据集上,宏平均和微平均的F1值分别提升了2.02%和2.21%。  相似文献   

8.
利用微博数据检测突发事件具有重要意义.针对以往检测方法特征不够丰富、准确率不高等问题,提出了一种基于多种特征融合的微博突发事件检测方法.该方法根据情感符号构建情感特征模型,对微博数据进行情感分类,并采用Kleinberg算法对情感特征进行突发期检测;在突发期内根据词频特征、词频增长特征和话题标签特征融合加权提取突发词,...  相似文献   

9.
针对汉越跨语言事件检测缺少平行语料,越南语标注困难,需要统一跨语言语义空间,且触发词存在较大的歧义和局限性等问题,提出基于事件类型感知的汉越跨语言事件检测方法。构造类型感知的注意力机制突显事件特征,融入汉越的词位置、词性和命名实体信息,并通过梯度反转(gradient reversal layer,GRL),实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测,缓解越南语的数据稀缺和触发词的局限性。实验中提出的方法较最好的基线模型在准确率上提升了4.32%。  相似文献   

10.
事件识别,包括事件触发词识别和分类,是事件抽取任务中的基础问题.为了利用较为丰富和完善的英文事件语料库来帮助完成中文事件抽取任务,提出了一种基于联合学习的跨语言事件识别方法,即利用源语言的标注语料对目标语言的测试语料进行事件识别.利用机器翻译及词对齐技术来保持源语言和目标语言的语言一致性和标注信息一致性.挑选合适的特征组合,使用最大熵分类模型分别实现触发词的识别和分类.通过整数线性规划的联合学习模型将二者结合在一起,加之局部约束和全局约束条件,对结果进行优化处理.实验结果表明,使用源语言的语料及其翻译语料叠加的双语语料时,所用方法可以取得较好的效果.  相似文献   

11.
新闻事件检测是自动检测新闻文本中出现的相关事件,需要大量人力设计模板,而且难以获取句中隐含的语义信息,识别触发词时多存在歧义.为解决以上问题,利用融合依存句法信息的卷积神经网络(Dependency Parsing Convolutional Neural Networks,DPCNN),针对句子级别越南语新闻事件进行检测.该模型在编码过程中融合了词义、位置信息、词性信息和命名实体信息,利用传统卷积编码连续词之间的特征,利用融合依存句法信息的卷积编码非连续词之间的特征,再融合两部分特征作为事件编码,进而实现事件检测.实验结果表明,该方法在越南语新闻事件检测中取得了很好的效果.  相似文献   

12.
随着微博等社交平台的兴起,如何针对微博数据进行产品命名实体识别成为了自然语言处理领域研究的热点之一,也是实现舆情监督和商业智能的基础.传统的命名实体识别技术没有考虑中文微博口语化、不规范等特点,且忽略了深层语义对命名实体识别的重要作用.因此,考虑中文微博的特殊性,提出一种融合全局上下文信息的词向量特征选择方法,分别采用主题模型和神经网络词向量聚类两种方法获取深层语义信息,并结合层叠条件随机场进行中文微博的命名实体识别.实验结果表明,基于词向量聚类的中文微博产品命名实体识别方法取得了较好的效果.  相似文献   

13.
在中文事件检测任务中,存在着领域互相独立,领域间的数据无法互通,需要分别为每个领域标注大量数据的问题。本文充分借鉴前人的研究,提出一个基于迁移学习的开放式中文事件检测方法。首先基于两个触发词关联假设,一个是同一个事件类型下,触发词与触发词在语义空间上有着一定的关联,且关联性较强。第二个是不同事件类型之间的触发词和触发词之间也存在着一定的关联,不过其关联性弱于相同事件类型下触发词之间的关联性。之后借助外部词典,构建候选词与种子触发词的关系特征以及候选词的上下文特征,再利用卷积神经网络构建事件检测的基础模型和迁移模型。最后对于新领域下的事件检测,只需要借助极少量的已知领域的标注数据即可完成。在ACE2005的中文事件数据集上,该方法在触发词识别这项任务上仅用20%的数据,其效果即可超越当前的主流方法。  相似文献   

14.
新闻事件主题句识别任务是一项基于文本内容进行语义分析的自然语言处理技术。为准确计算新闻事件文本中与新闻主题语义最相关的句子,提出一种基于图的新闻事件主题句抽取方法。首先利用描述事件特征的触发词及命名实体构建候选新闻事件句子抽取模板,然后,计算候选事件句之间的关联关系构建事件关系无向图,最后基于TextRank算法思想将图中任意顶点的权值表征为与其有关联的顶点权值的加权和,并按权值进行排序实现事件主题句抽取。实验结果表明,提出的方法优于基于TFIDF和基于标题的事件主题句抽取方法,F值分别提升了6.26%和2%。  相似文献   

15.
针对文本情感分类中情感语义特征利用不足、特征降维效果欠佳等影响分类效果的问题,提出了一种通过扩展语义相似的情感词以及引入词语间统计特征的高精度网络评论情感分类方法.该方法利用神经网络Skip-gram模型生成词嵌入,通过词嵌入相似性度量将语义相似的词语扩展为情感特征;再利用词语间的统计特征进行特征降维;通过多个弱分器加权构建Adaboost分类模型实现网络评论情感分类.基于酒店评论和手机评论公开测试集进行实验,结果表明其情感分类的正确率分别达到90.96%和93.67%.方法扩展语义相似情感词有利于丰富文本情感语义特征,引入词语间的统计特征有更好的特征降维效果,可以进一步提升文本情感分类的效果.   相似文献   

16.
核心目标词识别是对一条待测句子,识别出句子中能够激起核心语义场景的目标词.文章把核心目标词识别任务分成基于规则过滤识别阶段和基于分类模型识别阶段.利用预先构建的词元表对待测句子中的词进行筛选,识别出候选目标词,使用基于分类模型的识别方法,构建分类特征模板,最终确定句子的核心目标词.文章在汉语框架网的标注语料集上进行测试,实验结果表明,相比于基于规则过滤识别阶段,基于分类模型识别阶段识别率有显著地提升.  相似文献   

17.
时间关系的识别成为近年来自然语言处理领域(nature language processing,NLP)的一个研究热点。引入时间片段和主题片段这两种比事件触发词粒度粗的语义单元进行时间关系识别,首先在文本中利用一些时间篇章特点识别时间片段,然后利用相似度计算与支持向量机(support vector maehine,SVM)模型相结合的方法识别主题片段,最后在主题片段范围内,以时间片段为排序对象,使用最大熵分类模型识别时间关系。在TempEval-2010的汉语语料上进行实验,得到的时间关系识别宏平均精确率为60.09%。实验结果表明:引入时间片段后可有效减少不必要的事件时序关系的识别;同时,在主题片段的约束下所得到的时间关系更简洁、语义逻辑性更好。  相似文献   

18.
从海量微博数据中分析公众对某一社会事件的情感倾向具有重要研究意义,而海量微博文本稀疏规模庞大,导致传统方法处理这一任务时面临诸多挑战.提出一种基于主题聚类的海量微博情感分析方法.首先基于高质量微博数据挖掘频繁项集,设定语义相关阈值,筛选重要频繁项集进行谱聚类,得到主题关键词.基于主题关键词对海量微博数据依据语义相关度归类,最后结合情感词典对每类中的微博检索主题关键词前后修饰距离内情感词及否定词,结合表情符号计算微博情感值.在百万规模中文微博上进行实验,证明该方法能准确按主题归类且能有效在该主题上进行情感分类.  相似文献   

19.
本文提出一种基于突发词聚类的跨媒体突发事件检测方法。根据事件分析,发现微博具有文本丰富、用户活跃度高、在突发事件检测中具有速度快且高效的特点,但是由于微博文本长度较短,内容过于随意,使得事件发现的结果不够精确。新闻作为官方媒体,其真实性和权威性较高,内容比较规范,事件发现较为准确,但因为新闻数量较少,对于突发事件检测任务来说,时效性较低。现有的方法只针对一种媒体的数据进行挖掘,无法规避掉该媒体的数据所固有的缺点。本文提出一种方法,将微博和新闻2种媒体的数据进行融合,在满足突发事件检测的时效性的同时,提升了突发事件检测的准确率。  相似文献   

20.
文本表示是自然语言研究的基础问题,也是帮助我们高效处理网络上文本信息的关键.针对当前基于词或短语的文本表示模型容易丢失语义信息的问题,采用图结构的思想构造一种面向事件的文本表示模型-事件语义网络,该模型用事件触发词代替事件作为节点,以事件之间的语义关系作为边,把文本表示为节点和边构成的图.基于该模型实现了自动摘要应用,...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号