首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
基于领域知识和词向量的词义消歧方法   总被引:3,自引:0,他引:3  
利用无标注文本构建词向量模型,结合特定领域的关键词信息,提出一种词义消歧方法。以环境领域的待消歧文本作为评测语料,通过与Lesk等其他消歧方法进行比较,证明了所提方法的有效性。通过引入不同的领域知识,证明该方法亦可在其他领域的文本消歧任务中加以应用。  相似文献   

2.
提出一种融合语言知识的神经网络中文词义消歧模型,在双向长短时记忆网络中使用目标词的释义和例句信息进行消歧。该模型在SemEval-2007中英文词义消歧数据集上的实验结果表明,融合语言知识后,词义消歧的宏平均准确率和微平均准确率分别比基线模型提高了2.31%和1.93%,说明在神经网络模型中融合语言知识有助于改善中文词义消歧的效果。  相似文献   

3.
将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面的歧义问题, 构建一种句法分析和词义消歧的 一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词 将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面对的歧义问题, 构建一种句法分析和词义消歧的一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词义消歧能将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面对的歧义问题, 构建一种句法分析和词义消歧的一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词义消歧能力。  相似文献   

4.
针对一词多义现象, 提出一种基于上下文规则的词义消歧算法(CR-WSD), 该算法以定义消歧规则的方式确定多义词在文本中的具体含义, 利用WordNet中知识结构和上下文关系进行语义选择, 完成词义消歧. 用Senseval 3中的全文作为测试集, 实验结果表明该算法能有效地实现词义消歧.  相似文献   

5.
维吾尔语是典型的资源稀缺型语言,由于词义消歧标注语料资源和语义分析工具的不足,导致传统的有监督方法难以实现.针对该问题,将篇章文本的词义消歧问题类比为文本主题分类问题,在LDA(latent Dirichlet allocation)主题模型的基础上提出了一种维吾尔语无监督词义消歧模型.为强化主题模型对歧义词语义项的分类性能,加入了3个数据预处理过程:去除停用词,过滤有效词和强化同义词词频权重.实验结果表明,在随机抽取的63组测试样本集中,该模型的词义消歧准确率达到65.08%,在篇章文本采样词任务中词义消歧准确率达到61.2%.  相似文献   

6.
基于话题信息、词的位置关系和互信息等特征, 提出一种无监督的跨语言词义消歧算法。该算法仅利用在线词典和web搜索引擎, 通过上下文信息选择评论句中多义评论词的词义。实验结果表明, 所提出的词义消歧算法具有较高准确率, 对于具有较多候选词义的评论词仍能表现出较好的性能。  相似文献   

7.
词义消歧是自然语言处理领域的重点和难点问题.提出了一种基于知网中义原关系的多策略词义消歧方法.该方法利用知网中义原同最基本和最重要的部件-整体和属性-宿主关系进行词义消歧,并辅以基于值一属性关系、中文信息结构和语义相关度的消歧方法.在SENSEVAL-3汉语词义消歧任务测试文本上的实验表明,该方法与官方结果相比,具有较好的计算性能.  相似文献   

8.
传统的中文词义消歧方法是通过观察文本的上下文信息、词性等显性特征建立消歧模型,本文通过对歧义产生原因进行深入的分析,发现词语之间隐含的语法结构、语义信息等也会导致歧义的产生,可以考虑将这些信息加入消歧模型进行消歧。由于《知网》知识库中对词语之间的搭配信息进行了总结,本文借助《知网》提取训练语料库所获取的词语搭配信息的隐性语义特征,结合显性的上下文特征,采用条件随机场的方法进行词义消歧。最后,通过实验进行词义消歧和效果验证,结果表明:本文采用的方法与传统的条件随机场消歧相比,词义消歧的准确率得到了提高。  相似文献   

9.
一种基于NA假设的训练数据自动构造方法   总被引:1,自引:0,他引:1  
为减轻人工标注训练语料库面临的瓶颈问题,提出了一种基于NA假设带标训练语料库的自动构造方法·为了检验该方法的有效性,将自动获取的带标训练语料库用于词性标注应用中,2万词次的开放性测试结果的准确率为93.1%,其中词性兼类消歧准确率为79.3%,未登录词词性确定准确率为88%·  相似文献   

10.
词义消歧在中文自然语言处理中有着重要作用,基于传统机器学习的方法存在准确度不高,需要人工提取文本特征的缺点;基于深度学习的方法不适于词义歧义较多的情况。该文提出采用Seq2Seq模型的非受限词义消歧方法,输入词上下文序列,经过编码器编码得到潜在语义向量,再经过解码器解码输出词义序列,适用于所有词义歧义情况。最后,在SemEval-2007 Task#5任务中进行测试,测试结果表明,该文提出的方法比其他7种方法中的最优方法消歧准确率提高了11.48%。  相似文献   

11.
词汇关联对(lexical cohesion pairs,LCP)是真实文本中出现的反映不同句法语义关联关系的实词组合对。可靠的词汇关联对可以在汉语文本的复合词分析、句法结构排歧、远距离依赖识别和语义排歧等研究中发挥重要作用。该文提出了一种将基本块分析和统计筛选相结合的处理方法,保证在较高的提取精度条件下,尽可能多地从大规模真实文本语料库中自动获取较可靠的汉语紧密组合词汇关联对。在约4 000万字规模的人民日报词语切分和词性标注库上进行的关联对获取实验结果表明:该方法可以在废弃35.6%的有效分析信息条件下,自动提取出约73万个汉语名和动名关联对,抽样提取精度达到了96%左右,显示了较好的处理效果。  相似文献   

12.
基于深层特征抽取的日文词义消歧系统   总被引:1,自引:0,他引:1  
词义消歧的特征来源于上下文.日文兼有中英文的语言特性,特征抽取更为复杂.针对日文特点,在词义消歧逻辑模型基础上,利用最大熵模型优良的信息融合性能,采用深层特征抽取方法,引入语义、句法类特征用于消解歧义.同时,为避免偏斜指派,采用BeamSearch算法进行词义序列标注.实验结果表明,与仅使用表层词法类特征方法相比,本文构造的日文词义消歧系统的消歧精度提高2%~3%,动词消歧精度获得5%的改善.  相似文献   

13.
基于多层次句子相似度与向量空间模型的词义消歧   总被引:1,自引:0,他引:1  
介绍和对比了20世纪50年代以来出现的各种主要词义消歧的方法,论述了这些方法取得的成效和存在的局限,着重讨论了基于向量空间模型的消歧方法.在此基础上,通过分析和计算,提出了一种将多层次句子相似度计算应用于向量空间模型的新方法,从而提高机器翻译中的词义消歧的准确度.  相似文献   

14.
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷, 提出一种基于Hownet的词向量表示方法(H-WRL)。首先, 基于义原独立性假设, 将 Hownet中所有N个义原指定为欧式空间的一个标准正交基, 实现Hownet义原向量初始化; 然后, 根据Hownet中词语与义原之间的定义关系, 将词语向量表示视为相关义原所张成的子空间中的投影, 并提出学习词向量表示的深度神经网络模型。实验表明, 基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。  相似文献   

15.
基于转换的无指导词义标注方法   总被引:5,自引:0,他引:5  
词义标注是自然语言处理的难题之一。该文提出用于文本词义标注的转换规则自动获取算法及相应的词义排歧算法。该算法用可能的句法关系对语境进行限制,减少了训练数据中的噪音; 为提高学习算法的速度,提出利用预排序方法减少规则搜索次数,以及只调整变化部分数据的计算方法; 并给了改善召回率的词义排歧算法。在近5 万词的语料库上对本算法进行了实验,开放测试的词义排歧正确率为743% 。  相似文献   

16.
为了解决大型学术数据库中重名作者的歧义消解问题,提出了基于元路径异构网络嵌入的姓名实体消歧模型。使用大型在线学术搜索系统DBLP上的公开数据集,首先抽取学术出版物的作者信息、标题和会议期刊名称等特征属性,再利用word2vec模型工具生成的特征属性词嵌入输入到GRU网络中进行训练,构造出一个PHNet矩阵网络进行随机游走操作,从而捕捉不同类型节点之间的关系,最后进行相似节点的划分,完成姓名消歧工作。实验结果显示,新方法的精确度为0.865,召回率为0.792,F_1值为0.815。基于元路径的异构网络嵌入模型的精确度、召回率等指标都优于对比模型。因此,所提出的模型在提高大型学术数据库的消歧精准度方面具有良好的应用前景。  相似文献   

17.
To identify Song Ci style automatically, we put forward a novel stylistic text categorization approach based on words and their semantic in this paler. And a modified special word segmentation method, a new semantic relativity computing method based on HowNet along with the corresponding word sense disambiguation method are proposed to extract words and semantic features from Song Ci. Experiments are carried out and the results show that these methods are effective.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号