首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
事件触发词识别是事件抽取技术中核心任务之一,在面向微博的突发事件触发词识别中,提出一种基于扩展触发词表和多值分类模型(P-Multi模型)相融合的触发词识别方法,进行事件触发词识别。以多值分类模型以扩展触发词为基础,结合基于模式规则匹配,对文本进行潜在语义分析,进一步挖掘触发词语义信息,将模式匹配和语义分析融合在微博突发事件触发词识别之中。实验结果在触发词识别准确率、召回率上均有所提升,证明了该方法的有效性。  相似文献   

2.
事件识别,包括事件触发词识别和分类,是事件抽取任务中的基础问题.为了利用较为丰富和完善的英文事件语料库来帮助完成中文事件抽取任务,提出了一种基于联合学习的跨语言事件识别方法,即利用源语言的标注语料对目标语言的测试语料进行事件识别.利用机器翻译及词对齐技术来保持源语言和目标语言的语言一致性和标注信息一致性.挑选合适的特征组合,使用最大熵分类模型分别实现触发词的识别和分类.通过整数线性规划的联合学习模型将二者结合在一起,加之局部约束和全局约束条件,对结果进行优化处理.实验结果表明,使用源语言的语料及其翻译语料叠加的双语语料时,所用方法可以取得较好的效果.  相似文献   

3.
提出一种融合多模型和高置信度词典的事件线索识别方法,将高置信度词典特征分别加入最大熵模型和条件随机场模型,然后融合两个模型的结果,旨在提高触发词识别的召回率和整体性能。针对事件真伪性识别任务,进一步考察否定词或不确定词与触发词的物理位置距离和依存路径距离等特征,提高事件真伪性识别的性能。实验结果显示,针对触发词识别和事件真伪性识别任务,与仅使用最大熵模型相比,所提出的融合多模型与高置信度词典的方法能够提高触发词识别的性能6.43%,提高事件真伪性识别的性能1.69%。  相似文献   

4.
现有的中文事件触发词抽取方法大多数采用特征工程和触发词扩展方法, 无法利用同一文档中各个触发词实例之间的内在关系。为了解决上述问题, 基于马尔科夫逻辑网络(MLN), 利用核心词素, 训练语料中触发词实例填充真假事件的概率, 以及触发词实例间的关系等信息来推导测试集中缺乏有效上下文信息和低可信度的触发词实例。在ACE 2005 中文语料上的实验结果表明, 与基准系统相比, 该方法在触发词识别和事件类型分类阶段F1值分别提高3.65%和2.51%。  相似文献   

5.
为了解决现有事件检测方法存在语料稀疏和触发词一词多义导致的触发词抽取不准确以及类型判断错误等问题,该文将双向Transformer编码表示(BERT)的预训练模型与条件随机场(CRF)结合,并联合多任务学习,提出了一种基于BERT-CRF模型与多任务学习的事件检测方法(MBCED)。该方法同时进行事件检测任务和词义消歧任务,将词义消歧任务中学习到的知识转移到事件检测任务中,既补充了语料,也缓解了一词多义所导致的触发词分类不准确问题。在ACE2005数据集上的传统事件检测模型对比实验结果表明,与动态多池卷积神经网络(DMCNN)、基于循环神经网络的联合模型(JRNN)、基于双向长短期记忆和条件随机场(BiLSTM-CRF)的联合模型、BERT-CRF方法相比,MBCED方法触发词识别的F值提升了1.2%。多任务学习模型对比实验结果表明,与基于多任务深度学习的实体与事件联合抽取(MDL-J3E)模型、基于共享BERT的多任务学习(MSBERT)模型、基于CRF多任务学习的事件抽取模型(MTL-CRF)相比,MBCED在触发词识别和触发词分类2个子任务上的准确率都较好。  相似文献   

6.
在中文事件检测任务中,存在着领域互相独立,领域间的数据无法互通,需要分别为每个领域标注大量数据的问题。本文充分借鉴前人的研究,提出一个基于迁移学习的开放式中文事件检测方法。首先基于两个触发词关联假设,一个是同一个事件类型下,触发词与触发词在语义空间上有着一定的关联,且关联性较强。第二个是不同事件类型之间的触发词和触发词之间也存在着一定的关联,不过其关联性弱于相同事件类型下触发词之间的关联性。之后借助外部词典,构建候选词与种子触发词的关系特征以及候选词的上下文特征,再利用卷积神经网络构建事件检测的基础模型和迁移模型。最后对于新领域下的事件检测,只需要借助极少量的已知领域的标注数据即可完成。在ACE2005的中文事件数据集上,该方法在触发词识别这项任务上仅用20%的数据,其效果即可超越当前的主流方法。  相似文献   

7.
事件检测是自然语言处理领域的重要任务之一,其结果可以有效支撑信息抽取、文本分类和事件推理等下游任务. 预训练语言模型BERT在事件检测任务上取得了显著的成绩,然而该类方法无法有效获取长距离和结构化的文本信息. 为了缓解该问题,本文提出基于反馈网络的图卷积神经网络模型进行文本结构信息捕获,同时这种新方法能够有效解决图卷积神经网络带来的语义信息衰减性问题. 本文首先使用BERT预训练模型获取文本的语义特征,然后使用融入反馈网络的图卷积神经网络提取文本的句法结构特征,最终使用多分类器实现对事件触发词的识别和分类.公开数据集ACE 2005上的实验结果表明,本文提出的事件检测方法在事件触发词识别和分类任务上的F1值分别达到了74.46%和79.49%,较现有工作平均提高了4.13%和4.79%.  相似文献   

8.
时间关系的识别成为近年来自然语言处理领域(nature language processing,NLP)的一个研究热点。引入时间片段和主题片段这两种比事件触发词粒度粗的语义单元进行时间关系识别,首先在文本中利用一些时间篇章特点识别时间片段,然后利用相似度计算与支持向量机(support vector maehine,SVM)模型相结合的方法识别主题片段,最后在主题片段范围内,以时间片段为排序对象,使用最大熵分类模型识别时间关系。在TempEval-2010的汉语语料上进行实验,得到的时间关系识别宏平均精确率为60.09%。实验结果表明:引入时间片段后可有效减少不必要的事件时序关系的识别;同时,在主题片段的约束下所得到的时间关系更简洁、语义逻辑性更好。  相似文献   

9.
针对维吾尔语事件时序关系识别问题,提出了一种结合注意力机制的双向长短时记忆模型.基于维吾尔语语言及事件时序关系的特点,抽取13项基于事件间内部结构信息的特征.将词向量作为双向长短时记忆模型的输入,挖掘给定事件句隐含的上下文语义信息.结合事件触发词建立注意力机制,获取该事件句的事件语义特征.将事件内部结构特征和语义特征相融合,作为softmax层的输入,进而完成事件时序关系的识别.实验结果表明,该方法在获取事件句隐含语义信息的同时也能获取对应的事件语义特征.融合事件内部结构特征后,识别准确率为89.42%,召回率为86.70%,衡量模型整体性能的F值为88.03%,从而证明了该方法在维吾尔语事件时序关系识别任务上的有效性.  相似文献   

10.
讨论了语音识别中使用支持向量机(support vector machines,SVM)对音子级置信度进行综合的方法. 音子级置信度得分采用传统的方法计算而得,并使用SVM对音子级置信度进行综合得到词级的置信度得分. 在说话人无关的汉语孤立词识别实验中,使用作者方法比使用传统方法获得的系统等错误率rEER(equal error rates,EER)有明显降低,可以从基线系统的28.14%降低到23.71%,而系统的复杂度仅有小幅度的上升.  相似文献   

11.
基于支持向量机的抗噪语音识别   总被引:4,自引:1,他引:3  
阐述了支持向量机的分类机理,采用改进的MFCC语音特征参数,用基于不同核函数的支持向量机(SVM)作为语识别网络,对SVM多类分类问题采用"一对一"分类算法,实现了一个孤立词非特定人中等词汇量的抗噪语音识别系统。通过实验,得到了不同核函数下的识别结果;分析了核参数和误差惩罚参数对SVM推广能力的影响,并将实验结果同基于RBF神经网络的识别结果进行了比较。  相似文献   

12.
生物医学文本中的指代消解是生物医学信息抽取领域的一个重要组成部分.通过引入双代价参数对基本SVM方法进行改进,并在FlyBase语料集上进行了测试,准确率、召回率、F值分别达到53.9%、69.5%、60.7%.同时研究了特征向量的选择和取值对于实验结果的影响.最后与其他先进方法进行了对比.结果表明,在同样的语料上,基于双代价参数SVM方法优于其他先进的方法.  相似文献   

13.
针对特定音频事件识别中持续时间特别短的音频事件漏检概率高、识别速度较慢的问题,提出一种融合高斯混合模型(GMM)及支持向量机(SVM)的特定音频事件识别算法. 该方法利用GMM的统计分布描述能力和SVM的推广泛化能力,将GMM和SVM分别识别的结果进行融合处理,以手枪、步枪、机关枪等10类以上枪声为实验数据,无需针对每种枪声生成相应的识别模板,仅需训练生成2个识别模板. 实验结果表明,识别准确率达到92.71%. 该方法模板数量少,不需要多次训练,算法复杂度较低,不仅便于应用而且可大幅提升识别效率.   相似文献   

14.
采取DRM范式,要求被试分别对字音相同或相近的汉字和字形相近的汉字作是否出现过的判断。研究单个汉字的语音关联、字形关联对小学生错误记忆的影响。实验一发现,被试对关键诱饵字产生了明显的错误再认,字音相同或相近能够引发小学生对汉字的明显的错误记忆现象。实验二发现,被试对关键诱饵字也产生了明显的错误再认,字形相近能够引发小学生对汉字的明显的错误记忆现象。  相似文献   

15.
目的用线性调整惯性权重的蛙跳算法(linear decreasing inertia weight shuffled frog leaping algorithm,LWSFLA)训练支持向量机(support vectors machines,SVM),解决人脸识别中SVM在训练样本数较多且维数较高时,识别效果不理想的缺陷。方法该算法先用反向学习法产生初始群体提高初始解的质量,再修改最差青蛙的更新策略,并引入线性递减的惯性权重,最后应用于人脸识别中。结果与结论 ORL和CAS-PEAL-R1人脸库的仿真实验表明,LWSFLA-SVM方法的人脸识别时间短,识别率高,在训练样本不足时,识别效果良好。  相似文献   

16.
中文新闻事件检测的主要任务是从大量新闻中自动检测出潜在的新事件。人工构建事件特征词进行检测费时费力。单纯依靠密度聚类或谱聚类方法进行事件检测,存在不同事件的触发词相关性高时,容易误判为同一事件。为此,提出基于卷积神经网络和K-means结合的中文新闻事件检测与主题提取,将新闻中的文本向量化,通过深度学习抽取文本深层特征。实验结果表明:所提方法构建的模型准确率、召回率优于单一聚类方法,可对中文新闻事件准确识别,快速检测新事件,提取新事件主题。  相似文献   

17.
针对汉越跨语言事件检测缺少平行语料,越南语标注困难,需要统一跨语言语义空间,且触发词存在较大的歧义和局限性等问题,提出基于事件类型感知的汉越跨语言事件检测方法。构造类型感知的注意力机制突显事件特征,融入汉越的词位置、词性和命名实体信息,并通过梯度反转(gradient reversal layer,GRL),实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测,缓解越南语的数据稀缺和触发词的局限性。实验中提出的方法较最好的基线模型在准确率上提升了4.32%。  相似文献   

18.
基于关系触发词与单层门控循环单元模型进行关系抽取, 以降低关系抽取模型结构的复杂度, 并提高模型的训练效率. 通过计算单词的依存距离与序列距离得到关系触发词, 利用单层门控循环单元模型进行关系抽取, 并在SemEval 2010 Task 8数据集上进行实验. 实验结果表明, 该方法能有效提取出关系触发词, 并具有较高的关系抽取准确率.  相似文献   

19.
针对冷轧带钢表面缺陷图像模式识别中存在的问题,提出了基于改进支持向量机的冷轧带钢典型表面缺陷分类识别方法.根据带钢表面缺陷图像识别的特点,对渐进直推式支持向量机在其基本原理基础上加以改进,设计了一种冷轧带钢表面缺陷图像模式识别的分类器.通过实验确定了分类器的结构,给出了相关参数选择的方法.对几种生产现场出现频率较高的典型缺陷图像进行了计算机实验研究.研究结果显示,这种分类器很好地克服了传统支持向量机中存在的推广性能差以及当类别距离过近时准确率下降的问题,具有更好的适应性和准确性.  相似文献   

20.
针对传统用户意图识别主要使用基于模板匹配或人工特征集合方法导致成本高、扩展性低的问题,提出了一种基于BERT词向量和BiGRU-Attention的混合神经网络意图识别模型。首先使用BERT预训练的词向量作为输入,通过BiGRU对问句进行特征提取,再引入Attention机制提取对句子含义有重要影响力的词的信息以及分配相应的权重,获得融合了词级权重的句子向量,并输入到softmax分类器,实现意图分类。爬取语料实验结果表明,BERT-BiGRU-Attention方法性能均优于传统的模板匹配、SVM和目前效果较好的CNN-LSTM深度学习组合模型。提出的新方法能有效提升意图识别模型的性能,提高在线健康信息服务质量、为在线健康社区问答系统提供技术支撑。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号