首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
考虑了实体的全局一致性,充分利用了知识库中实体间结构化的语义信息.在PageRank算法的基础上,提出一种基于双向语义关联的实体消歧算法,该算法通过在维基百科中抽取出实体之间的超链接关系构建知识图谱,重新定义两个实体之间的平均最短路径,并联合实体之间的语义信息以完成实体链接消歧的任务.在公开数据集上进行的实验结果显示:该算法能提高实体消歧结果的准确率和召回率,实验结果优于当前主流算法.  相似文献   

2.
语义歧义大量存在于自然语言中,其排歧成功率是衡量机器翻译、信息检索、文本分类等自然语言处理软件性能的重要指标.对语义消歧这一自然语言理解领域的难点技术问题进行了探讨,分析了统计学习方法在语义消歧中的应用,阐述了统计语义消歧的有关技术,并给出一个基于贝叶斯与机读词典的语义消歧实例,取得了较高的语义消歧成功率.  相似文献   

3.
提出了一种基于扩展语义向量的特征表示方法,利用机器学习的方法来解决基因提及标准化中的消歧问题。首先应用高性能的命名实体识别系统识别文献中的基因提及;其次采用不同的搜索策略生成候选结果;再次以扩展语义信息作为特征用机器学习的方法进行消歧;最后利用Wikipedia构建后过滤器对候选结果进行过滤处理。在BioCreative Ⅱ GN任务测试集上的试验表明,该方法的F值达到了83.2%。  相似文献   

4.
一种基于SVM和规则消除组合型歧义的算法   总被引:2,自引:0,他引:2  
歧义的处理是影响分词系统切分精度的重要因素,也是中文自动分词系统中较为困难的问题.提出一种基于支持向量机(SVM)和规则(Rules)相结合的算法(SR算法),对中文分词过程中的组合型歧义字段进行排歧.SR算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义.实验表明,用此算法对几种不同的语料进行排歧测试,排除组合型歧义字段的切分正确率可达83%左右,为解决中文自动分词难题提供了一条新路径.  相似文献   

5.
汉语的歧义分布在语言的不同层面上,从词形变化到句子结构都存在歧义.针对汉英机器翻译不同阶段遇到的歧义问题,采用了隐马尔柯夫模型和贝叶斯分类法来进行排歧.实验表明:基于统计的多步消歧策略在汉英机器翻译系统中具有较高的排歧准确率.  相似文献   

6.
将名词、形容词、动名词和命名实体作为文本特征,考虑词序与词频,结合特征项的语义,提出一种基于改进最长公共子序列的文本聚类(LCSC)方法.实验结果表明:相对于传统的余弦值聚类方法,LCSC方法在人名消歧的P-IP指标上,F平均值由74.2%提高到了84.9%;相对于最长公共子序列方法,总体性能也提高了3.7%.  相似文献   

7.
基于转换的无指导词义标注方法   总被引:5,自引:0,他引:5  
词义标注是自然语言处理的难题之一。该文提出用于文本词义标注的转换规则自动获取算法及相应的词义排歧算法。该算法用可能的句法关系对语境进行限制,减少了训练数据中的噪音; 为提高学习算法的速度,提出利用预排序方法减少规则搜索次数,以及只调整变化部分数据的计算方法; 并给了改善召回率的词义排歧算法。在近5 万词的语料库上对本算法进行了实验,开放测试的词义排歧正确率为743% 。  相似文献   

8.
在对网络藏语文本做信息抽取时,往往由于有很多藏族人具有同一个名字,使研究人员得不到期望的结果.为了解决这种"信息丢失问题",本论述在分析其产生原因的基础上,提出可采用生物学中序列比对的方法与社会网络分析方法中的图聚类算法相结合,对藏语人名进行消重.将人名实体的各个属性抽象成各个序列,进而通过各个序列的对比来统计出每两个...  相似文献   

9.
文档中的关键实体可以抽象概括文本所描述的事件(或话题)的主体,推动面向实体的检索和问答系统等方面的研究.然而,文档中的实体是无序的,对文本中的实体进行排序显得尤为重要.提取文本实体特征并借助维基百科和词汇分布表示引入外部特征,提出了一种基于前向分步算法(Forward Stagewise Algorithm,FSAM)的排序模型LA-FSAM(FSAM based on AUC Metric and Logistic Function).该模型利用曲线下面积(Area Under the Curve,AUC)准则构造损失函数,逻辑斯谛函数整合实体特征,最后使用随机梯度下降法求解模型参数.通过LA-FSAM与基线方法的实验对比证明了所提方法的有效性.  相似文献   

10.
常识推理在机器翻译词义排歧中的应用   总被引:1,自引:0,他引:1  
本文针对词义排歧提出了一种利用语言常识进行逻辑推理以筛选出合理词义的形式化标准和方法,将人们在翻译过程中排歧时所进行的逻辑推理归结为一种机械的集合运算,使之易于机器操作.并在此基础上,提出一种利用义项多元组引入词义的语境相关限制信息、以改进现有电子词典使其更加有利于排歧的方案,从方向上指明了这种词典知识获取的途径.  相似文献   

11.
基于多特征融合的同名专家消歧方法研究   总被引:1,自引:0,他引:1  
针对专家库构建过程中出现的同名歧义现象, 提出一种基于多特征融合的同名专家消歧方法。从中国知网(CNKI)数据源中获取专家的论文信息, 抽取论文的标题、摘要、关键词、作者单位和合作者等关键信息, 并将其作为属性特征, 构建特征表示模型, 进而定义同名专家之间的相似度计算函数。根据计算得到的相似度, 将同名消歧问题转化为聚类问题。利用近邻传播聚类算法进行聚类, 解决同名消歧问题。在采集的专家论文数据上的实验表明, 基于多特征融合的同名专家消歧方法的准确率可达92%, 取得良好的消歧效果。  相似文献   

12.
为了解决大型学术数据库中重名作者的歧义消解问题,提出了基于元路径异构网络嵌入的姓名实体消歧模型。使用大型在线学术搜索系统DBLP上的公开数据集,首先抽取学术出版物的作者信息、标题和会议期刊名称等特征属性,再利用word2vec模型工具生成的特征属性词嵌入输入到GRU网络中进行训练,构造出一个PHNet矩阵网络进行随机游走操作,从而捕捉不同类型节点之间的关系,最后进行相似节点的划分,完成姓名消歧工作。实验结果显示,新方法的精确度为0.865,召回率为0.792,F_1值为0.815。基于元路径的异构网络嵌入模型的精确度、召回率等指标都优于对比模型。因此,所提出的模型在提高大型学术数据库的消歧精准度方面具有良好的应用前景。  相似文献   

13.
由于人的重名现象,人名检索的结果往往是同名的不同人物实体相关网页的混合。重名消解是根据上下文来区分同名的不同人物实体的过程。本文提出了基于相关社区的重名消解方法,采用改进的Espresso算法进行相关社区发现。将每个网页发现的社区应用到两阶段重名消解算法中,并且在WePS-2测试集上进行试验。实验结果表明了该方法的有效性。  相似文献   

14.
本文提出了一种基于规则匹配和机器学习的论文作者名自动化消歧方法:首先基于人工构建的人名匹配规则确定候选作者,对于存在多个候选人的情况,基于论文的属性信息(例如合作者、标题、摘要、关键词和出版物名称等)提取特征,然后选取合适的机器学习算法进行消歧.实验效果表明K近邻和Softmax分类器较适合于论文作者名消歧任务;此外,将作者信息与论文的其他信息分开提取特征能够有效提高作者名消歧的准确性.  相似文献   

15.
以提高洪水资源利用率为目标,研究利用实时水雨工情及短期雨洪预报等综合信息的汛期库水位实时动态控制方法,即改进的预蓄预泄法.应用实例表明,在不降低水库上下游防洪标准的前提条件下,可使桓仁水库及梯级库群的发电效益明显增加.该综合信息的汛期库水位实时动态控制方法,对北方水资源短缺地区调节性能较高的大型水库(水电站)汛期实时调度,有较好的借鉴意义.  相似文献   

16.
将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面的歧义问题, 构建一种句法分析和词义消歧的 一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词 将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面对的歧义问题, 构建一种句法分析和词义消歧的一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词义消歧能将句法分析与词义消歧相结合, 根据层次化语义知识的句法分析框架, 在句法分析训练过程中, 利用句法结构信息对文法模型进行调整, 解决了引入语义时所面对的歧义问题, 构建一种句法分析和词义消歧的一体化方法。实验表明, 在句法分析过程中进行词义消歧处理, 使句法分析的性能显著提升, 同时也获得词义消歧能力。  相似文献   

17.
基于转移学习的命名实体挖掘技术   总被引:1,自引:0,他引:1  
研究了针对大规模查询日志中丰富的命名实体的挖掘技术,通过利用Wikipedia数据,结合转移学习方法构建目标类别的分类器.该技术很好地利用了监督学习的优越性能以提高查询日志中命名实体挖掘的准确性,同时也解决了监督学习方法中大规模标注的问题.实验结果表明,基于转移学习的命名实体挖掘技术具有优越的命名实体挖掘性能.  相似文献   

18.
基于语义相关度计算的汉语词义消歧方法研究   总被引:1,自引:0,他引:1  
词义消歧(WSD)一直是自然语言处理(NLP)研究的重点和难点之一.本文以语义资源-《知网》为基础,从语义角度出发,抽取《知网》中义原之间的多种复杂关系,结合词性、词语组合等信息,提出一种基于相关度计算的汉语词义消歧方法.实验结果表明,该方法对于处理汉语WSD是有效的.  相似文献   

19.
针对传统方法在维基百科信息框中提取本体信息精准率较低的问题, 研究维基百科信息框中的属性结构化信息. 首先定义一组候选特征判定信息框属性之间的关系, 建立与类别、 列表、 文章及维基百科信息框模板之间的关联; 然后借鉴本体匹配方法提取维基百科信息框结构化信息, 计算属性对的相似度, 设置边界限制条件, 在达到一定精确度下构建本体结构描述属性之间的关系, 并构建类层次结构. 结果表明, 所给方法解决了提取本体信息精准率较低的问题, 能高效、 正确地在给定主题文章中将可能的属性结构提取出来, 并发现合理的类关系.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号