首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
汉语自动排歧方法研究   总被引:1,自引:0,他引:1  
介绍和总结了汉语各个层次的歧义问题,全面分析和讨论了基于规则、基于统计、基于实例和基于词典的排歧方法和它们的存在的问题.针对汉语的一些歧义现象,在实例分析的基础上,给出了基于语义知识的消歧方法.  相似文献   

2.
3.
为了解决大型学术数据库中重名作者的歧义消解问题,提出了基于元路径异构网络嵌入的姓名实体消歧模型。使用大型在线学术搜索系统DBLP上的公开数据集,首先抽取学术出版物的作者信息、标题和会议期刊名称等特征属性,再利用word2vec模型工具生成的特征属性词嵌入输入到GRU网络中进行训练,构造出一个PHNet矩阵网络进行随机游走操作,从而捕捉不同类型节点之间的关系,最后进行相似节点的划分,完成姓名消歧工作。实验结果显示,新方法的精确度为0.865,召回率为0.792,F_1值为0.815。基于元路径的异构网络嵌入模型的精确度、召回率等指标都优于对比模型。因此,所提出的模型在提高大型学术数据库的消歧精准度方面具有良好的应用前景。  相似文献   

4.
机器翻译中词义的常识排歧   总被引:3,自引:1,他引:2  
提出了一种机器翻译中多义词词义排歧的新方法.首先对翻译过程中多义词的词义选择是否符合常识给出了一条形式化的标准,然后将人们在翻译过程中排歧时所进行的逻辑推理归结为一种机械的集合运算,使之易于机器操作.在此基础上建立了义项多元组的概念,利用此多元组引入词义的语境相关限制信息,以改进现有电子词典,使之更加利于排歧.并从方向上指明了这种词典知识获取的途径.  相似文献   

5.
考虑了实体的全局一致性,充分利用了知识库中实体间结构化的语义信息.在PageRank算法的基础上,提出一种基于双向语义关联的实体消歧算法,该算法通过在维基百科中抽取出实体之间的超链接关系构建知识图谱,重新定义两个实体之间的平均最短路径,并联合实体之间的语义信息以完成实体链接消歧的任务.在公开数据集上进行的实验结果显示:该算法能提高实体消歧结果的准确率和召回率,实验结果优于当前主流算法.  相似文献   

6.
针对传统方法在维基百科信息框中提取本体信息精准率较低的问题, 研究维基百科信息框中的属性结构化信息. 首先定义一组候选特征判定信息框属性之间的关系, 建立与类别、 列表、 文章及维基百科信息框模板之间的关联; 然后借鉴本体匹配方法提取维基百科信息框结构化信息, 计算属性对的相似度, 设置边界限制条件, 在达到一定精确度下构建本体结构描述属性之间的关系, 并构建类层次结构. 结果表明, 所给方法解决了提取本体信息精准率较低的问题, 能高效、 正确地在给定主题文章中将可能的属性结构提取出来, 并发现合理的类关系.  相似文献   

7.
常识推理在机器翻译词义排歧中的应用   总被引:1,自引:0,他引:1  
本文针对词义排歧提出了一种利用语言常识进行逻辑推理以筛选出合理词义的形式化标准和方法,将人们在翻译过程中排歧时所进行的逻辑推理归结为一种机械的集合运算,使之易于机器操作.并在此基础上,提出一种利用义项多元组引入词义的语境相关限制信息、以改进现有电子词典使其更加有利于排歧的方案,从方向上指明了这种词典知识获取的途径.  相似文献   

8.
最大熵方法中特征选择算法的改进与纠错排歧   总被引:2,自引:0,他引:2  
对应用最大熵原理建立语言模型的特征选取方法作了改进.用特征模板从训练样本中获得候选特征集,应用频次与平均互信息相结合的方法从候选特征集中选取特征.在选择有效特征时,对候选特征集中出现频次大于某一限值的特征或平均互信息很大的特征直接加入有效特征集,且不是每选一个特征都调用参数的求解过程,从而加快了特征选择的速度.将改进的算法应用于文本纠错建议的排歧,实验证明,所改进的特征选择算法有效.  相似文献   

9.
实体链接任务的目的是将文本中的实体指称链接到知识库中与之对应的无歧义实体。针对此任务, 提出一种基于主题敏感的重启随机游走的实体链接方法。该方法首先使用实体指称的背景文本信息将实体指称扩充为全称, 并在维基百科知识库中搜索候选实体, 得到候选实体集合; 根据上述中间结果构建图, 利用在图上的主题敏感重启随机游走得到的平稳分布对候选实体集合进行排序, 选出top 1 的候选实体作为目标实体。实验结果表明, 该方法在KBP2014 实体链接数据集上实验的F 值为0.623, 高于其他系统实验的F值, 能够有效提高实体链接系统的整体性能。  相似文献   

10.
MIS智能接口利用自然语言表达查询意图并给出查询结果,可方便人机交互,提高系统的实用性.从MIS智能接口的角度剖析了受限自然语言查询语句的组成,探讨了统计排歧方法在MIS智能接口中的应用.最后,给出了一个基于受限汉语的分词系统实例,实验表明它具有较高的消歧正确率.  相似文献   

11.
基于语义相关度计算的汉语词义消歧方法研究   总被引:1,自引:0,他引:1  
词义消歧(WSD)一直是自然语言处理(NLP)研究的重点和难点之一.本文以语义资源-《知网》为基础,从语义角度出发,抽取《知网》中义原之间的多种复杂关系,结合词性、词语组合等信息,提出一种基于相关度计算的汉语词义消歧方法.实验结果表明,该方法对于处理汉语WSD是有效的.  相似文献   

12.
基于话题信息、词的位置关系和互信息等特征, 提出一种无监督的跨语言词义消歧算法。该算法仅利用在线词典和web搜索引擎, 通过上下文信息选择评论句中多义评论词的词义。实验结果表明, 所提出的词义消歧算法具有较高准确率, 对于具有较多候选词义的评论词仍能表现出较好的性能。  相似文献   

13.
传统的中文词义消歧方法是通过观察文本的上下文信息、词性等显性特征建立消歧模型,本文通过对歧义产生原因进行深入的分析,发现词语之间隐含的语法结构、语义信息等也会导致歧义的产生,可以考虑将这些信息加入消歧模型进行消歧。由于《知网》知识库中对词语之间的搭配信息进行了总结,本文借助《知网》提取训练语料库所获取的词语搭配信息的隐性语义特征,结合显性的上下文特征,采用条件随机场的方法进行词义消歧。最后,通过实验进行词义消歧和效果验证,结果表明:本文采用的方法与传统的条件随机场消歧相比,词义消歧的准确率得到了提高。  相似文献   

14.
将名词、形容词、动名词和命名实体作为文本特征,考虑词序与词频,结合特征项的语义,提出一种基于改进最长公共子序列的文本聚类(LCSC)方法.实验结果表明:相对于传统的余弦值聚类方法,LCSC方法在人名消歧的P-IP指标上,F平均值由74.2%提高到了84.9%;相对于最长公共子序列方法,总体性能也提高了3.7%.  相似文献   

15.
基于领域知识和词向量的词义消歧方法   总被引:3,自引:0,他引:3  
利用无标注文本构建词向量模型,结合特定领域的关键词信息,提出一种词义消歧方法。以环境领域的待消歧文本作为评测语料,通过与Lesk等其他消歧方法进行比较,证明了所提方法的有效性。通过引入不同的领域知识,证明该方法亦可在其他领域的文本消歧任务中加以应用。  相似文献   

16.
为了快速处理航天情报,基于数据驱动的深度学习技术,提出融合多源异构知识标注中文航天情报数据集的方法流程,以及基于预训练(pre-training)模型的航天情报实体识别(AIER)方法;通过对航天情报进行命名实体识别,达到对航天情报进行信息抽取的目的.通过融合BERT(bidirectional encoder representation from transformers)预训练模型和条件随机场(CRF)模型构建AIER模型(BERT-CRF模型),将其与隐马尔可夫模型(HMM)、条件随机场(CRF)模型、双向长短期记忆网络加条件随机场(BiLSTM-CRF)模型进行实体识别对比实验.结果表明:基于预训练模型的AIER模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值;相比于其他方法,基于预训练模型方法的性能得到提高.  相似文献   

17.
基于短语匹配的中文分词消歧方法   总被引:1,自引:0,他引:1  
在短语结构文法的基础上,提出一种基于局部单一短语匹配和语义规则相结合的消歧方法.通过增加短语间的右嵌套规则和采用有限自动机的实现方式,解决了短语规则中存在冗余项的问题,提高了短语匹配效率和歧义消除类型的针对性.实验结果表明,该消歧方法的平均消歧率约为98%,优于一般未考虑词语间语法和语义消歧模型的处理效果.  相似文献   

18.
基于多特征融合的同名专家消歧方法研究   总被引:1,自引:0,他引:1  
针对专家库构建过程中出现的同名歧义现象,提出一种基于多特征融合的同名专家消歧方法。从中国知网(CNKI)数据源中获取专家的论文信息,抽取论文的标题、摘要、关键词、作者单位和合作者等关键信息,并将其作为属性特征,构建特征表示模型,进而定义同名专家之间的相似度计算函数。根据计算得到的相似度,将同名消歧问题转化为聚类问题。利用近邻传播聚类算法进行聚类,解决同名消歧问题。在采集的专家论文数据上的实验表明,基于多特征融合的同名专家消歧方法的准确率可达92%,取得良好的消歧效果。  相似文献   

19.
可比语料库由于其自身优势和广泛用途逐渐成为语料库研究的热点方向之一,而目前国内俄汉可比语料库相关研究未见学者涉及。通过梳理国内外相关研究成果,设计了一种基于维基百科构建俄汉可比语料库的思路和方法,研制了语料自动获取系统,以篇章对齐为基础建立了俄汉可比语料库,语料字(词)总数达到了百万级,最后利用跨语言相似度计算的方法对俄汉语料的可比度进行计算。计算结果表明该方法能够有效获取可比度较高的俄汉语料,所构建的语料库可被用于俄汉翻译、话语分析及计算语言学研究中。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号