首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
基于深层特征抽取的日文词义消歧系统   总被引:1,自引:0,他引:1  
词义消歧的特征来源于上下文.日文兼有中英文的语言特性,特征抽取更为复杂.针对日文特点,在词义消歧逻辑模型基础上,利用最大熵模型优良的信息融合性能,采用深层特征抽取方法,引入语义、句法类特征用于消解歧义.同时,为避免偏斜指派,采用BeamSearch算法进行词义序列标注.实验结果表明,与仅使用表层词法类特征方法相比,本文构造的日文词义消歧系统的消歧精度提高2%~3%,动词消歧精度获得5%的改善.  相似文献   

2.
本文提出了一种利用知网的实例库与知网关系进行词义消歧算法.该方法首先利用知网提供的实例库进行初步的匹配;若在实例库中没有完全匹配,则利用上下文搭配关键词与知网中的实例搭配词进行相似度计算,若相似度大于给定阈值,则消歧结束.否则,我们再判断歧义词的义原与关键词的义原是否具有某种关系,根据义原权值调节算法调整义原权值.调整后的义原权值大小不一,按照事先的约定,我们选取综合权值最大的义项.我们发现,该方法能够弥补仅依靠实例库的覆盖率低的问题,又能减少仅依靠统计方法产生的噪音,从而提高词义消歧的正确率.  相似文献   

3.
基于语义相关度计算的汉语词义消歧方法研究   总被引:1,自引:0,他引:1  
词义消歧(WSD)一直是自然语言处理(NLP)研究的重点和难点之一.本文以语义资源-《知网》为基础,从语义角度出发,抽取《知网》中义原之间的多种复杂关系,结合词性、词语组合等信息,提出一种基于相关度计算的汉语词义消歧方法.实验结果表明,该方法对于处理汉语WSD是有效的.  相似文献   

4.
将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面的歧义问题, 构建一种句法分析和词义消歧的 一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词 将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面对的歧义问题, 构建一种句法分析和词义消歧的一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词义消歧能将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面对的歧义问题, 构建一种句法分析和词义消歧的一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词义消歧能力。  相似文献   

5.
词义消歧在中文自然语言处理中有着重要作用,基于传统机器学习的方法存在准确度不高,需要人工提取文本特征的缺点;基于深度学习的方法不适于词义歧义较多的情况。该文提出采用Seq2Seq模型的非受限词义消歧方法,输入词上下文序列,经过编码器编码得到潜在语义向量,再经过解码器解码输出词义序列,适用于所有词义歧义情况。最后,在SemEval-2007 Task#5任务中进行测试,测试结果表明,该文提出的方法比其他7种方法中的最优方法消歧准确率提高了11.48%。  相似文献   

6.
提出一种利用规则与统计相结合的方法用于英汉机译系统中以消解语义级歧义 ,建立了一种根据单词之间的词语搭配关系以消除歧义的模型。该模型利用英汉双语语料选择合理的词组语义 ,对有歧义的单词作出标注。在此基础上给出了语义消歧的学习算法 ,并建立了一套有效的提高召回率的消歧算法。算法在英汉机译系统中的实际应用使正确率提高了约 10 % ,效果显著。  相似文献   

7.
首先从大规模语料中采集到组合歧义字段,进而对其搭配信息进行统计.最后应用多元对数似然比计算出消歧参数进行消歧,实验中考虑了歧义字段的上下文窗口、位置、权值等要素.在此基础上应用消歧后的语料扩充搭配信息集,修正消歧参数.  相似文献   

8.
词义消歧是自然语言处理领域的重点和难点问题.提出了一种基于知网中义原关系的多策略词义消歧方法.该方法利用知网中义原同最基本和最重要的部件-整体和属性-宿主关系进行词义消歧,并辅以基于值一属性关系、中文信息结构和语义相关度的消歧方法.在SENSEVAL-3汉语词义消歧任务测试文本上的实验表明,该方法与官方结果相比,具有较好的计算性能.  相似文献   

9.
维吾尔语是典型的资源稀缺型语言,由于词义消歧标注语料资源和语义分析工具的不足,导致传统的有监督方法难以实现.针对该问题,将篇章文本的词义消歧问题类比为文本主题分类问题,在LDA(latent Dirichlet allocation)主题模型的基础上提出了一种维吾尔语无监督词义消歧模型.为强化主题模型对歧义词语义项的分类性能,加入了3个数据预处理过程:去除停用词,过滤有效词和强化同义词词频权重.实验结果表明,在随机抽取的63组测试样本集中,该模型的词义消歧准确率达到65.08%,在篇章文本采样词任务中词义消歧准确率达到61.2%.  相似文献   

10.
针对一词多义现象, 提出一种基于上下文规则的词义消歧算法(CR-WSD), 该算法以定义消歧规则的方式确定多义词在文本中的具体含义, 利用WordNet中知识结构和上下文关系进行语义选择, 完成词义消歧. 用Senseval 3中的全文作为测试集, 实验结果表明该算法能有效地实现词义消歧.  相似文献   

11.
To identify Song Ci style automatically, we put forward a novel stylistic text categorization approach based on words and their semantic in this paler. And a modified special word segmentation method, a new semantic relativity computing method based on HowNet along with the corresponding word sense disambiguation method are proposed to extract words and semantic features from Song Ci. Experiments are carried out and the results show that these methods are effective.  相似文献   

12.
词义自动消歧概率模型   总被引:3,自引:2,他引:1  
提出了一种词义自动消歧概率模型·在词义自动消歧实验中,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响·目前该词义自动消歧系统已经应用于基于词层的英汉机器翻译系统(汽车配件专业领域)中,有效地提高了翻译性能  相似文献   

13.
词切分是像汉语这类非拉丁语言的一个特有问题,并且由于汉语组词中普遍存在着岐义性和语境依赖性,这一问题也是一个尚未得到彻底解决的难题。本文通过仔细分析汉语分词岐义的规律,将追求整体最优效果的松驰算法引入到汉语自动分词的排岐研究中。借助于语词之间搭配关系等上下文约束条件以及词频、字频等统计数据,构造了一种汉语分词排岐的新方法。实验结果表明,这种方法在切分精度和切分速度上都取得了较好的效果,为解决汉语自动分词难题提供了一种新途径。  相似文献   

14.
基于转换的无指导词义标注方法   总被引:5,自引:0,他引:5  
词义标注是自然语言处理的难题之一。该文提出用于文本词义标注的转换规则自动获取算法及相应的词义排歧算法。该算法用可能的句法关系对语境进行限制,减少了训练数据中的噪音; 为提高学习算法的速度,提出利用预排序方法减少规则搜索次数,以及只调整变化部分数据的计算方法; 并给了改善召回率的词义排歧算法。在近5 万词的语料库上对本算法进行了实验,开放测试的词义排歧正确率为743% 。  相似文献   

15.
针对传统关系抽取模型依赖特征工程等机器学习方法, 存在准确率较低且规则较繁琐等问题, 提出一种BERT+BiLSTM+CRF方法. 首先使用BERT(bidirectional encoder representations from transformers)对语料进行预训练; 然后利用BERT根据上下文特征动态生成词向量的特点, 将生成的词向量通过双向长短期记忆网络(BiLSTM)编码; 最后输入到条件随机场(CRF)层完成对因果关系的抽取. 实验结果表明, 该模型在SemEval-CE数据集上准确率比BiLSTM+CRF+self-ATT模型提高了0.054 1, 从而提高了深度学习方法在因果关系抽取任务中的性能.  相似文献   

16.
词汇关联对(lexical cohesion pairs,LCP)是真实文本中出现的反映不同句法语义关联关系的实词组合对。可靠的词汇关联对可以在汉语文本的复合词分析、句法结构排歧、远距离依赖识别和语义排歧等研究中发挥重要作用。该文提出了一种将基本块分析和统计筛选相结合的处理方法,保证在较高的提取精度条件下,尽可能多地从大规模真实文本语料库中自动获取较可靠的汉语紧密组合词汇关联对。在约4 000万字规模的人民日报词语切分和词性标注库上进行的关联对获取实验结果表明:该方法可以在废弃35.6%的有效分析信息条件下,自动提取出约73万个汉语名和动名关联对,抽样提取精度达到了96%左右,显示了较好的处理效果。  相似文献   

17.
从大规模真实文本中挖掘词义关系是自然语言学习的一项艰巨任务。词义不是静态、一成不变的,随着时代的发展,词义也在不断变迁。如何从错综复杂的词义变迁中,挖掘词义演化的基本规律,准确发现词义的各种变化,并给出量化的分析和建立数学模型,是一个急待解决的问题。根据词语的上下文搭配词分布情况来定义该词的词义,提出一种基于动态语料库的词义演化计算方法统计词义在23年《人民日报》中的分布信息,计算词义在各个时段的变化值,构造词义的演化曲线,并提出一种基于X2分析的方法来挖掘词语的搭配词与时间之间的相关关系。  相似文献   

18.
基于话题信息、词的位置关系和互信息等特征, 提出一种无监督的跨语言词义消歧算法。该算法仅利用在线词典和web搜索引擎, 通过上下文信息选择评论句中多义评论词的词义。实验结果表明, 所提出的词义消歧算法具有较高准确率, 对于具有较多候选词义的评论词仍能表现出较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号