首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
事件指代消解根据指代词的不同可以分为代词的事件指代消解和名词短语的事件指代消解。研究了语义角色对名词短语的事件指代消解系统的影响,根据SVM机器学习的方法进行英文事件的指代消解,通过在计算事件语义相似度的元组(语义角色)中加入时间和地点元素改进语义特征来提高事件指代消解系统的性能。Onto Notes 4.0语料库上的实验结果显示,引入改进的语义特征后,与基准系统相比系统的准确率和F值均有所提高。验证了时间和地点元素对事件指代消解的正面影响。  相似文献   

2.
中文篇章零元素语料库构建   总被引:1,自引:0,他引:1  
针对中文零指代问题, 从篇章视角进行理论分析, 并完成中文篇章零元素语料库(Chinese Discourse Zero Corpus, CDZC)的构建工作。首先, 整理和分析已有的理论研究以及语料资源, 探究篇章层面中文零元素语料库标注的必要性。然后, 采用自底向上、前向搜索的标注策略和人机结合的半自动标注方式, 完成CDZC语料库的构建。最后, 对该语料库进行一系列详细的统计分析。结果表明, CDZC能够充分反映出中文零元素省略的语言特点, 为相关研究提供语料资源支持。  相似文献   

3.
事件要素识别是事件抽取的基本任务,对后续任务的开展起着重要作用.随着深度学习技术的发展,神经网络逐渐成为事件要素识别的主流方法.近几年,注意力机制在自然语言处理领域得到广泛使用,但注意力机制依赖于嵌入层对上下文特征的提取,在事件要素识别等序列标注问题中效果不理想.针对这一问题,提出了一种基于注意力机制的双维注意力机制,从矩阵行和列两个维度计算注意力得分,因此可以较好地提取句子的上下文特征,并且使用了动态目标损失函数,通过动态给予不同标签不同的权重,一定程度上缓解了样本不平衡和数据稀疏带来的模型泛化不足问题.在CEC2.0中文突发事件语料库上对比实验表明,所提方法取得较好效果.  相似文献   

4.
针对因果关系事件中对象、属性及其相互作用关系抽取工作的不足和因果关系中的长距离依赖问题,定义了创新问题的因果关系表达方式,提出了基于层叠跳跃链条件随机场的因果关系标注方法.首先通过低层线性链条件随机场模型对预处理过的候选集进行因果关系边界标注,其次对标注结果进行降噪和扩充,将其作为新的特征传递给高层跳跃链条件随机场模型用于识别因果角色,最后对高层结果进行指代消解和降噪.对多种类别的真实语料进行了实验,结果表明应用本方法可取得较好的标注效果.  相似文献   

5.
兼语结构是汉语中常见的一种动词结构,由述宾短语与主谓短语共享兼语,结构复杂,给句法分析造成困难,因此兼语识别工作对于语义解析及下游任务都具有重要意义。但现存兼语语料库较少,面向中文抽象语义表示(AMR)标注体系的兼语语料库构建仍处于空白阶段。针对这一现状,该文总结出一套兼语语料库标注规范,构建了包含4 760个兼语句的面向中文AMR标注体系的兼语语料库。基于构建的语料库,采用LA-BiLSTM-CRF模型识别兼语结构,达到了86.06%的F1,并分析了识别结果,提出了改进方向。  相似文献   

6.
基于语篇表述理论的汉语人称代词的消解研究   总被引:4,自引:0,他引:4  
人称代词的指代消解是自然语言处理中语篇理解的关键问题之一.语篇表述理论(DRT)独特的语篇表述结构(DRS)构造方法为指代消解提供了新的思路.本文在语篇表述理论的基础上,针对汉语书面语,提出一种面向语篇理解的汉语人称代词的指代消解方法,并在语篇表述结构的构造过程中实现汉语人称代词的指代消解.  相似文献   

7.
韵律标注是藏语语音合成语料库建设的重要环节.文章参考汉语韵律标注的研究成果,结合藏语自身的语音特点以及韵律特征,进行了面向藏语语音合成语料库的韵律标注研究,并设计一套包含拉丁转写、声调类型、音节结构、重音类型以及停顿指数的标注规则,为藏语语音韵律特征的研究提供了直观的、科学的方法.  相似文献   

8.
针对中文篇章中的零指代问题,提出一种基于中英文可比较语料进行中文零指代识别和消解的方法,并提出英文对等句的概念。利用对等句,重新定义句子间隔,并引入双语词对齐特征。在基准平台基础上,从零指代项识别和零指代项消解两个方面进行研究。在Onto Notes5.0语料上的实验结果表明,与目前性能最好的系统相比,新提出的基于中英对等语料的中文零指代方法取得更好的性能。  相似文献   

9.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

10.
为了进一步提高中文语料库中语料的词性标注效率,在分析最大熵模型(MEM)和隐马尔科夫模型(HMM)所涉及理论、算法及其在中文词性标注技术中的应用的基础上,进行了基于MEM和HMM的中文词性标注实验.实验结果显示,基于MEM和HMM的中文词性标注算法都获得了一致性很好且覆盖率较高的标注效果,中文词性标注的准确率、召回率和F1这3个指标均达到92%以上;MEM的标注效果总体上比HMM的稍佳.  相似文献   

11.
事件指代消解任务比实体指代消解难度大, 主要原因为事件描述在非结构化文本中分布稀疏, 且不具备同指关系的单链占很大比例, 同时事件自身承载的语义信息比实体更加丰富。为了准确地抽取文本中的同指事件, 针对以上特点, 提出一种融合篇章表征的事件指代消解模型。该模型通过CRF有效地区分非事件句、单链以及同指链, 同时利用分层注意力机制捕捉句子级别和篇章级别的重要信息。在KBP2015和2016数据集上进行的事件指代消解实验验证了该模型的有效性, 在CoNLL评测标准下F1值达到43.07%。  相似文献   

12.
歧义处理是中文分词的难点之一,其中交集型歧义占该类问题的主要部分,而无监督学习可以利用互联网上的无标注语料库来处理该问题.文章将比较卡方统计量、t-测试差在歧义处理中的效果,通过对其研究提出一种改善歧义处理性能的方法.实验结果表明,所提出的方法能有效进行分词,并提高了交集型歧义消解的性能.  相似文献   

13.
鉴于现有中文实体链接基准语料库的缺乏, 在ACE2005中文语料库和中文维基百科的基础上, 通过自动构造和人工标注的方法, 构建一个中文实体链接语料库及其相关的中文知识库。与传统的英文实体链接语料库不同, 构造的中文实体链接语料库是基于实体而非单个实体指称(Mention)。中文实体链接语料库的构建, 将为中文实体链接研究提供一个可用的基准平台。  相似文献   

14.
采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等成果,通过汉泰双语词典映射到与中文句子相对齐的泰语句子上,对泰语句子进行必要的数据处理操作,并进行一定量的人工校正和人工实体关系标注工作;进而构建基础的泰语实体关系训练语料库.在语料库的基础上,将泰语实体关系抽取问题转化为分类问题,同时结合泰语语言本身的特点,选取合适的上下文特征模板,使用最大熵模型算法对训练语料进行学习训练,构建分类器,对泰语句子中的候选实体关系三元组进行识别,最终达到实体间从属关系自动抽取的目的.实验结果显示该方法可使F值相对于已有的泰语实体关系抽取研究方法提升8%左右.  相似文献   

15.
事件识别,包括事件触发词识别和分类,是事件抽取任务中的基础问题.为了利用较为丰富和完善的英文事件语料库来帮助完成中文事件抽取任务,提出了一种基于联合学习的跨语言事件识别方法,即利用源语言的标注语料对目标语言的测试语料进行事件识别.利用机器翻译及词对齐技术来保持源语言和目标语言的语言一致性和标注信息一致性.挑选合适的特征组合,使用最大熵分类模型分别实现触发词的识别和分类.通过整数线性规划的联合学习模型将二者结合在一起,加之局部约束和全局约束条件,对结果进行优化处理.实验结果表明,使用源语言的语料及其翻译语料叠加的双语语料时,所用方法可以取得较好的效果.  相似文献   

16.
近些年来语料库语言学的发展较为迅速,语料库的建设成为一项重要的工作.在对语料加工的过程中,保证词性标注的一致性也成为建设高质量语料库的重要问题.目前国内外对汉语语料库词性标注结果的校对,还停留在人工校对上,对词性标注结果不一致现象尚未进行系统的研究.对于词性标注方法不是很成熟的维吾尔语语料库来说,词性校对方面的研究工作更少.首先概要介绍了一种维吾尔语的标注方法,并受一些文献的启发,根据维吾尔语的特点对其进行词性标注自动校对的研究,并分析其适用于维吾尔语词性校对的可行性,进而提高维吾尔语词性标注的正确率.  相似文献   

17.
在蒙古语语音合成系统中,语料库的好坏会直接影响语音合成的效果.因此,语料库标注规则的设计对语音合成工作具有重要意义.提出了一种新的蒙古语语音合成语料库的标注规则,并用按此规则标注的蒙古语语料库进行了基于隐马尔科夫模型的蒙古语语音合成实验,合成效果达到了预期目标,说明我们提出的标注规则是合理可靠的.  相似文献   

18.
面向中文问答系统的问句句法分析   总被引:3,自引:0,他引:3  
中文句法分析是汉语研究和信息处理中的一个关键环节,同时也是难点之一.探 讨了中文问句的结构特征,在面向中文问答系统的问句句法分析算法中,运用语料库句法处理技术,并对问句长度短、含疑问词、有疑问结构句式等特点加以利用,初步实验结果达到了预期目标.  相似文献   

19.
古藏文字符统计研究能够对机器翻译以及从海量文本中快速定位核心内容、情报收集工作等有着重要意义.目前,藏文字符统计研究主要依据现代藏文语料库.文章以敦煌藏文文献为主,构建了古藏文文献标注语料库.在此基础上,应用python语言设计出古藏文频率统计软件,对古藏文和现代藏文的元音、辅音、藏文数字频次等进行对比分析,归纳出古藏文字符的分布特征,以期为古藏文标注语料库的构建和研究提供参考.  相似文献   

20.
中文嵌套命名实体关系抽取研究   总被引:1,自引:0,他引:1  
为了解决嵌套命名实体关系抽取研究缺乏相关语料库这一问题, 在现有中文命名实体语料库的基础上, 将人工标注与机器学习相结合来抽取其语义关系。人工标注一个中文嵌套命名实体关系语料库, 然后分别采用支持向量机和卷积神经网络等方法, 进行中文嵌套实体关系抽取实验。实验结果表明, 在人工标注实体的中文嵌套命名实体语料上, 嵌套实体关系抽取的性能非常好, F1指数达到95%以上, 而在自动识别实体上的抽取性能尚不理想。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号