首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于语义标注的信息抽取   总被引:6,自引:2,他引:6       下载免费PDF全文
词性标注是引起语义缺失的根本原因,提出了以语义标注作为构建信息抽取规则的基础。基于语义标注的信息抽取可消除词性标注引起的3个负面影响,用统一的方法来指导信息抽取过程。这种方法避开语法分析,具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于语义标注的MIE(军用信息抽取)系统,并对标图文本试行信息抽取。抽取结果表明,基于语义标注的信息抽取方式有一定的可行性和适用性。  相似文献   

2.
利用基于统计机器学习方法进行汉语语义角色标注(Semantic Role Labeling,SRL)存在人工抽取特征工作繁琐低效、模型难以捕捉长句上下文语义信息等问题.对此,提出BiLSTM-MaxPool-CRF融合模型进行汉语SRL,同时进行模型性能优化研究.首先,在训练语料中融入词性、论元标记、短语句法等多层级语言学特征;然后,结合AvgPool技术对特征组进行采样选取;最后,通过多组实验结果表明,相比于未采样提取的多特征组,经过池化技术采样提取的多特征能够显著提高模型的性能.  相似文献   

3.
提出了一种基于语义标注和最小二乘神经网络信息抽取的方法,并选用教材为研究对象,以语义标注作为构建信息抽取规则的基础,以原始文本与目标模板之间的相似度作为竞争力,通过原始文本与目标模板的竞争来实现原始文本的分类和噪声信息的过滤,直接从分类的角度抽取出教材信息。  相似文献   

4.
综合语义角色标注语料的格式、标签结构、标签内容和用户可信度等多个特征, 实现一种自动的语义角色标注一致性计算方法。实验证明, 该方法对错误标注的召回率高, 并且速度快, 结果稳定, 可以大幅度地提高语义角色标注一致性检查的效率。  相似文献   

5.
事件抽取是自然语言处理领域的重要研究方向。传统的事件类型抽取系统采用分类方式,无法解决跨句子的事件角色和事件类型匹配问题。为了解决该问题,提出一种基于序列标注的事件联合抽取模型,结合卷积神经网络(convolutional neural networks, CNN)与长短期记忆网络(long short-term memory, LSTM)提取全局特征和局部特征;并在浅层LSTM层共享参数实现联合抽取,以序列标注方式抽取事件论元并匹配事件类型。实验结果表明,模型能有效提取司法领域的文档事件信息。  相似文献   

6.
针对通用领域的事件论元抽取研究中角色信息利用不足和论元间缺少交互两个问题,提出角色信息引导的多轮事件论元抽取模型,用于增强文本的语义信息和论元之间的交互能力,提升事件论元抽取的性能。首先,为了更好地利用角色知识来引导论元的抽取,该模型根据角色定义构造角色知识,对角色信息和文本独立编码,并采用基于注意力机制的方法获取标签知识增强的文本表示,进而采用增强嵌入来预测各角色论元的起始和结束位置。同时,为了在抽取过程中充分利用事件论元之间的交互,受多轮对话模型的启发,设计一种多轮事件论元抽取算法。该算法参照“先易后难”的自然逻辑,每次选择预测概率最大,也是最容易确定的角色进行抽取。在论元抽取过程中,为了对论元之间的交互进行建模,模型引入历史嵌入,并在每一次预测结束后更新历史嵌入,帮助下一轮事件论元的抽取。实验结果表明,角色信息的引导和多轮抽取算法均有效地提升了论元抽取的性能,使得该模型的表现优于其他基线模型。  相似文献   

7.
越南语是一种典型的资源稀缺型语言,汉越平行语料较为稀少,但在如维基百科、双语新闻等网站上存在大量的汉越可比语料.而从可比语料中抽取平行短语对任务能够有效缓解低资源机器翻译中面临的数据稀疏性问题.考虑到上下文语义信息对抽取高质量的双语短语对有重要支撑.提出了融合上下文语义信息的汉越平行短语对抽取方法.首先使用汉、越单语语...  相似文献   

8.
端到端的事件抽取涉及两个子任务:事件检测和事件元素抽取,当前大多数研究工作并未解决元素抽取中角色重叠的问题,并且忽略了数据集提供的静态信息。文章提出一种基于两个独立编码器的事件抽取模型,通过词典增强的序列标注方法检测触发词和事件类型,再将事件类型、实体类型和边界信息作为元素抽取阶段的补充特征,使用多个角色二分类网络实现“分离式”的元素识别和角色分类,最后将基于静态数据统计得到的角色辨识度对所有分类器的损失函数加权求和,作为最终的损失函数,进而更好地拟合数据集特点。在两个公开的中文数据集ACE2005和DuEE上,实验F1值分别达到57.1%和76.1%,并且该方法有效提高了对角色重叠事件的识别准确率。  相似文献   

9.
实体关系抽取是信息抽取的重要组成部分.描述了一种融合多信息的实体语义关系抽取方法,充分利用中文的各种特征和信息来提高关系抽取的性能.该方法主要结合特征向量和树核函数两种方法;特征向量表示了文本的语言信息,树核方法表示了文本的结构化信息.并且在2005年的自主内容抽取(automatic content extraction,ACE)基准语料上进行关系检测和6个关系大类抽取的实验.实验结果表明,该方法能识别出大部分的非关系实例,各种关系类型识别的精确率和召回率也有一定提高.  相似文献   

10.
目前事件检测方法往往将句中事件视为独立个体,忽视了句子或文档内事件间的相关关系,且某些触发词在不同语境下可能触发不同事件,而多种语境下训练的词向量会引入与当前语境无语义关联的噪声.针对此问题,本文提出一种融合多级语义特征的双通道GAN事件检测方法,使用多级门限注意力机制获取句子级和文档级事件间的语义相关性,并利用双通道GAN及其自调节学习能力减轻噪声信息的影响,进而提高事件特征表示的准确性.在公开数据ACE2005英文语料上进行实验,F1值达到了77%,结果表明该方法能够有效获取事件间的语义相关性,并提高语境判定的准确性.   相似文献   

11.
Web信息抽取与语义检索框架   总被引:1,自引:1,他引:0  
提出了一种Web信息抽取与语义检索框架,采用定制本体模型,针对Web网页特点设计了抽取与语义标引策略,并在检索过程中引入语义推理机制,从而改善了信息检索的效果.最后介绍了基于Jena实现的该框架的原型系统.  相似文献   

12.
为了进行路径自然语言研究,首先设计了路径自然语言收集方案,主要面向室内环境收集了一定的路径自然语言语料,通过手工标注建立了一个小型的语料库.其次,对路径自然语言的特征进行了一定的分析,在此基础上概括了几种常见的语义角色,主要包括关于landmark和方位转换的语义角色.路径自然语言本身具有高度规律性,语义角色相对集中,因此语义分析采用了基于组块分析的语义角色标注方法,将语义分析问题转化为序列信号的切分和分类问题.最后,利用支持向量机进行了相关的组块标注实验.实验结果表明提出的方法具有较大的潜力.  相似文献   

13.
14.
为了解决设计重用过程中基于模型的产品数字化定义(MBD)模型的问题,采用特征识别技术,对MBD模型自动添加语义标注,从而提高关键字检索的准确性.首先,对MBD模型的构成原理与模型要素进行分析,并在融合关键信息的基础上建立零件模型的属性面邻接图(AAG),根据零件模型上加工特征,将特征划分为螺钉头部特征、螺钉功能特征和材料特征.其次,通过顶点属性结合邻接矩阵重构图的顶点序列,动态编码结合距离匹配,求出最大公共子图,得出MBD模型之间的相似度.最后,利用聚类法实现对MBD模型的自动语义标注.实验结果表明:文中方法可以实现MBD模型的自动语义标注,很大程度上提高语义标注的自动化程度.  相似文献   

15.
王腾阳  赵小丹  胡林 《科学技术与工程》2023,23(27):11562-11569
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,人工整理文献内的种质资源数据费时费力。为了快速、准确地从育种文献中提取种植资源数据,使用基于词性标注规则和预设词的方法抽取文献数据。文献格式为PDF文档,对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(Optical Character Recognition, OCR)获取文本内容。采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据。对115篇文献的1490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F值为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础。  相似文献   

16.
中文问答系统中语义角色标注的研究与实现   总被引:1,自引:1,他引:0  
问答系统是信息检索的高级形式,也是人工智能领域研究的热点.为了提高中文问答系统的处理水平,在问答系统中应用了语义角色标注的思想.实验结果表明,语义角色标注可以有效地改善中文问答系统的性能.  相似文献   

17.
随着人工智能和中文信息处理技术的产业化发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术.针对现有线性标注模型无法满足语义信息技术产业化发展对准确率的需求,提出了采用多层级语言学线索组合的模型优化方法.首先,选取综合标注性能优异的条件随机场基准模型,构建相配套的语义角色标注语料库.然后,在模型中融入词法及句式等多层级语言学线索,实现了对模型的多层次优化.最后,通过对比实验各项标注指标,论证了融入的相关语言学线索可以有效增强线性序列模型的标注性能.  相似文献   

18.
在前期基于图网络的模型基础上,引入角色指代信息,提出融合角色指代的多方对话关系抽取模型.在构建图节点时加入角色节点,将其与对应角色指代的词节点进行连接,并使用图注意力网络进行编码.在DialogRE数据集上的实验效果与基线模型相比,F1值在验证集上提升2.9%,在测试集上提升4.6%.  相似文献   

19.
语义标注所用标签数目众多,训练数据更为稀疏,用HMM作语义标注面临参数估计不准的难题。不同于传统的解决数据稀疏方法,以《同义词词林》的层次式结构为依据,提出了利用语义层次的提升来改善HMM(hidden Markov model)中参数的估计质量;在算法实现中,采用选择受限策略来解决因语义提升而引起的模型辨别力下降问题。测试表明,在训练数据相对稀疏的情况下,适度调整模型的语义层次可大幅提高语义标注的精度,该方法表现出较好的可塑性。  相似文献   

20.
提出了一种支持用户在网上的浏览活动的语义标注方法.该方法从语义上同类型的标注信息中提取特征,通过获取标注信息以建立用户意图模型,再利用概率判断识别用户意图;语义转换后得到的信息可以和其它的或被评估的用户意图进行比较;最后利用启发式函数量化具体用户意图和信息的相似度,以达到用户在浏览语义异构网络信息空间时获取相关信息的目的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号