首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
维吾尔语是典型的资源稀缺型语言,由于词义消歧标注语料资源和语义分析工具的不足,导致传统的有监督方法难以实现.针对该问题,将篇章文本的词义消歧问题类比为文本主题分类问题,在LDA(latent Dirichlet allocation)主题模型的基础上提出了一种维吾尔语无监督词义消歧模型.为强化主题模型对歧义词语义项的分类性能,加入了3个数据预处理过程:去除停用词,过滤有效词和强化同义词词频权重.实验结果表明,在随机抽取的63组测试样本集中,该模型的词义消歧准确率达到65.08%,在篇章文本采样词任务中词义消歧准确率达到61.2%.  相似文献   

2.
基于话题信息、词的位置关系和互信息等特征, 提出一种无监督的跨语言词义消歧算法。该算法仅利用在线词典和web搜索引擎, 通过上下文信息选择评论句中多义评论词的词义。实验结果表明, 所提出的词义消歧算法具有较高准确率, 对于具有较多候选词义的评论词仍能表现出较好的性能。  相似文献   

3.
传统的中文词义消歧方法是通过观察文本的上下文信息、词性等显性特征建立消歧模型,本文通过对歧义产生原因进行深入的分析,发现词语之间隐含的语法结构、语义信息等也会导致歧义的产生,可以考虑将这些信息加入消歧模型进行消歧。由于《知网》知识库中对词语之间的搭配信息进行了总结,本文借助《知网》提取训练语料库所获取的词语搭配信息的隐性语义特征,结合显性的上下文特征,采用条件随机场的方法进行词义消歧。最后,通过实验进行词义消歧和效果验证,结果表明:本文采用的方法与传统的条件随机场消歧相比,词义消歧的准确率得到了提高。  相似文献   

4.
词义消歧在中文自然语言处理中有着重要作用,基于传统机器学习的方法存在准确度不高,需要人工提取文本特征的缺点;基于深度学习的方法不适于词义歧义较多的情况。该文提出采用Seq2Seq模型的非受限词义消歧方法,输入词上下文序列,经过编码器编码得到潜在语义向量,再经过解码器解码输出词义序列,适用于所有词义歧义情况。最后,在SemEval-2007 Task#5任务中进行测试,测试结果表明,该文提出的方法比其他7种方法中的最优方法消歧准确率提高了11.48%。  相似文献   

5.
将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面的歧义问题, 构建一种句法分析和词义消歧的 一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词 将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面对的歧义问题, 构建一种句法分析和词义消歧的一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词义消歧能将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面对的歧义问题, 构建一种句法分析和词义消歧的一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词义消歧能力。  相似文献   

6.
基于深层特征抽取的日文词义消歧系统   总被引:1,自引:0,他引:1  
词义消歧的特征来源于上下文.日文兼有中英文的语言特性,特征抽取更为复杂.针对日文特点,在词义消歧逻辑模型基础上,利用最大熵模型优良的信息融合性能,采用深层特征抽取方法,引入语义、句法类特征用于消解歧义.同时,为避免偏斜指派,采用BeamSearch算法进行词义序列标注.实验结果表明,与仅使用表层词法类特征方法相比,本文构造的日文词义消歧系统的消歧精度提高2%~3%,动词消歧精度获得5%的改善.  相似文献   

7.
为了解决现有事件检测方法存在语料稀疏和触发词一词多义导致的触发词抽取不准确以及类型判断错误等问题,该文将双向Transformer编码表示(BERT)的预训练模型与条件随机场(CRF)结合,并联合多任务学习,提出了一种基于BERT-CRF模型与多任务学习的事件检测方法(MBCED)。该方法同时进行事件检测任务和词义消歧任务,将词义消歧任务中学习到的知识转移到事件检测任务中,既补充了语料,也缓解了一词多义所导致的触发词分类不准确问题。在ACE2005数据集上的传统事件检测模型对比实验结果表明,与动态多池卷积神经网络(DMCNN)、基于循环神经网络的联合模型(JRNN)、基于双向长短期记忆和条件随机场(BiLSTM-CRF)的联合模型、BERT-CRF方法相比,MBCED方法触发词识别的F值提升了1.2%。多任务学习模型对比实验结果表明,与基于多任务深度学习的实体与事件联合抽取(MDL-J3E)模型、基于共享BERT的多任务学习(MSBERT)模型、基于CRF多任务学习的事件抽取模型(MTL-CRF)相比,MBCED在触发词识别和触发词分类2个子任务上的准确率都较好。  相似文献   

8.
词义消歧在自然语言处理中一直是一个难点问题,同时,也是很多领域都需要解决的一个重要环节.本文介绍了一种基于BP神经网络和统计方法相结合的有导词义消歧模型,详细讲解了BP神经网络原理;对使用这种混合人工智能的消歧模型的可能性和优越性进行了讨论;通过试验发现实际和预测结果的误差并不随着试验迭代次数而递减,而是实际误差随着次数的增加在零的附近呈现波动状态,即使用很少的迭代次数也可以得到比较好的结果.由此得出,BP神经网络预测模型在词义消歧的中具有良好的应用前景.  相似文献   

9.
词义自动消歧概率模型   总被引:3,自引:2,他引:1  
提出了一种词义自动消歧概率模型·在词义自动消歧实验中,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响·目前该词义自动消歧系统已经应用于基于词层的英汉机器翻译系统(汽车配件专业领域)中,有效地提高了翻译性能  相似文献   

10.
基于领域知识和词向量的词义消歧方法   总被引:3,自引:0,他引:3  
利用无标注文本构建词向量模型,结合特定领域的关键词信息,提出一种词义消歧方法。以环境领域的待消歧文本作为评测语料,通过与Lesk等其他消歧方法进行比较,证明了所提方法的有效性。通过引入不同的领域知识,证明该方法亦可在其他领域的文本消歧任务中加以应用。  相似文献   

11.
针对一词多义现象, 提出一种基于上下文规则的词义消歧算法(CR-WSD), 该算法以定义消歧规则的方式确定多义词在文本中的具体含义, 利用WordNet中知识结构和上下文关系进行语义选择, 完成词义消歧. 用Senseval 3中的全文作为测试集, 实验结果表明该算法能有效地实现词义消歧.  相似文献   

12.
为进一步提高文本情感倾向性分类效果,提出基于文本特征和语言知识融合的卷积神经网络模型MI-CNN.使用Word2Vec表示词语信息,将词性和情感词语等语言知识嵌入词向量中,将文本特征和语言知识融合到情感倾向性分类模型,经过参数优化提升文本情感倾向性分类模型的准确率.在数据集上进行实验,结果表明所提出的模型准确率达到93...  相似文献   

13.
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷, 提出一种基于Hownet的词向量表示方法(H-WRL)。首先, 基于义原独立性假设, 将 Hownet中所有N个义原指定为欧式空间的一个标准正交基, 实现Hownet义原向量初始化; 然后, 根据Hownet中词语与义原之间的定义关系, 将词语向量表示视为相关义原所张成的子空间中的投影, 并提出学习词向量表示的深度神经网络模型。实验表明, 基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。  相似文献   

14.
词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意义,在机器翻译中更是如此,它直接关系到译文质量的提高,但目前已有的词义消歧系统基本上都面临着消歧知识获取的瓶颈问题,要真正有效地提高词义知识库的质量,需要在词类划分基础上,增加词义的误法功能分析和语义搭配限制,综合利用现有的语法,语义资源,提取多义词的每个意义在不同层次上的各种分布特征,以此为基础,给出了一个汉英机器翻译系统中基于语法,语义知识库的汉语词义消歧分析模型,初步的实验结果表明,该方法可以高质量地进行汉语名词,动词,形容词的词义消歧。  相似文献   

15.
一种融合多种语义特征的中文问题分类方法   总被引:1,自引:0,他引:1  
针对中文问题分类方法中提取语义信息不准确和特征向量维数过高导致处理速度过慢的问题,提出了一种融合多种语义特征的问题分类方法。借助HowNet,兼顾问句的句法和语义信息,选取问题疑问词、核心词的主要义原、命名实体、名词单/复数等四种分类特征,并在义原的提取过程中加入词义消岐技术,对事实疑问句进行分类。在某高校信息检索研究室的中文问题集上进行实验,实验结果证明了该方法的有效性,大类准确率92.82%,小类准确率84.45%,取得了较好的效果。  相似文献   

16.
基于多特征融合的同名专家消歧方法研究   总被引:1,自引:0,他引:1  
针对专家库构建过程中出现的同名歧义现象, 提出一种基于多特征融合的同名专家消歧方法。从中国知网(CNKI)数据源中获取专家的论文信息, 抽取论文的标题、摘要、关键词、作者单位和合作者等关键信息, 并将其作为属性特征, 构建特征表示模型, 进而定义同名专家之间的相似度计算函数。根据计算得到的相似度, 将同名消歧问题转化为聚类问题。利用近邻传播聚类算法进行聚类, 解决同名消歧问题。在采集的专家论文数据上的实验表明, 基于多特征融合的同名专家消歧方法的准确率可达92%, 取得良好的消歧效果。  相似文献   

17.
中文分词是中文信息处理领域的重要技术,现已成为中文信息处理研究中最成熟的领域.融合多策略的中文分词算法模型在字典匹配的基础上引入了标注统计和规则理解的优化策略,将已有的句法、语义研究应用到分词排歧与未登录词识别领域.通过实验对比,初步证实分词效果较好,达到模型分词的准确率和自适应性的提升.  相似文献   

18.
基于多层次句子相似度与向量空间模型的词义消歧   总被引:1,自引:0,他引:1  
介绍和对比了20世纪50年代以来出现的各种主要词义消歧的方法,论述了这些方法取得的成效和存在的局限,着重讨论了基于向量空间模型的消歧方法.在此基础上,通过分析和计算,提出了一种将多层次句子相似度计算应用于向量空间模型的新方法,从而提高机器翻译中的词义消歧的准确度.  相似文献   

19.
一种抗攻击的中文同义词替换文本水印算法   总被引:1,自引:0,他引:1  
目的提出了一种抗攻击的基于中文同义词替换的文本水印算法。方法根据主流消歧算法的特点,给出词汇相似度和义项相似度两个指标。在为嵌入水印而进行同义词替换时,选择词汇相似度低,且义项相似度高的同义词进行替换。结果以此造成机器消歧的正确率降低,从而使得利用机器消歧的自动攻击难以奏效。实验证明,该算法将词义消歧的正确率从90.4%降低到74.5%。结论提出的方法应用于文本水印算法,提高了算法的鲁棒性。  相似文献   

20.
中文分词是中文信息处理的前提和基础.文章综合基于词典的分词方法和统计的分词方法的优点,旨在提出一种基于词性标注与分词消歧的中文分词方法,针对初次分词结果中的歧义集进行对比消歧.利用正向、逆向最大匹配方法以及隐马尔可夫模型进行分词,得到三种分词结果中的歧义集.基于词信息对歧义集进行初次消歧.通过隐马尔可夫模型标注词性,利用Viterbi算法对每种分词结果选取最优词性标注.并基于定义的最优切分评估函数对歧义集进行二次消歧,从而获得最终分词.通过实验对比,证明该方法具有良好的消歧效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号