首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
为了提高万维网信息检索的性能,该文提出在基于机器学习的检索排序算法中,利用万维网链接图的拓扑特性来度量网页的重要性。链接图的拓扑特性是从各种不同的角度对链接图结构信息的描述,利用它来度量网页的重要性可以更加全面地利用链接图所包含的结构信息,并且能够更好地发挥学习机的学习能力。通过实验表明,在基于排序提升器的检索排序算法中,利用链接图的拓扑特性可以非常有效地度量网页的重要性,其性能要优于传统的PageRank算法。  相似文献   

2.
网页之间的链接结构为评价网页的主题重要性提供了丰富的信息,但传统的基于链接结构评价的主题排序算法,虽然提出了用向量来表示网页在不同主题中的重要程度,但它们在计算过程中没有充分考虑网页本身的主题相关度.为解决这一问题,本文提出根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中.同时,根据网页的主题重要性排序,来指导专题爬行器的爬行方向.实验结果表明,基于网页主题重要性的排序测度TopicalRank比PageRank、TSPR(Topical-Sensitive PageRank)对专题爬行更有指导意义.  相似文献   

3.
信息检索中通过网页链接信息提取文档内部关系进行搜索结果重排可以提升检索系统的性能。通过Markov网络来展现文档内部关系,该网络更直观地解释了文档间的语义相关性,利用这种文档内部语义关系计算文档重要性对检索结果进行重排。根据文档分布特征阐述了Markov文档网络的构造算法,讨论了Top-k及其相关文档的重要性评分算法,修正初始检索的文档评分。通过这种方式,既保持了文档图的查询相关性,又丰富了文档内部关系,扩大了重排序范围。实验表明,在多个标准文档集上基于Markov网络的结果重排技术对检索性能有较大的稳定提升。  相似文献   

4.
PageRank算法是目前被广泛应用的一种度量网页重要性的方法,它根据网页之间的链接结构来给每个网页打分。从数学的角度来解释,PageRank可以被看作是一个马尔可夫随机游走模型,依据网页下一步的链出信息计算网页的转移概率。受计算机象棋算法设计中一个很成功的策略:“多看几步”的启发,改进和推广了经典PageRank算法,提出了更为一般的N-stepPageRank算法,它在计算网页的转移概率时利用了网页N步的链接信息。经典PageRank算法是N-stepPageRank算法N=1时的特殊情形。TREC标准数据集上的试验表明,N-stepPageRank算法能够有效地提高网页搜索的精确度,MAP指标比经典的PageRank的提高超过15%。  相似文献   

5.
蒋得虎 《科技资讯》2006,(24):144-144
1.PageRank的基本原理 PageRank的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为网页A投了网页B一票,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值。简单地说,PageRank就是要从链接结构中获取网页的重要性,而网页的重要性决定着同时也依赖于其他网页的重要性。  相似文献   

6.
深入剖析了全文检索引擎Lucene的排序算法,针对Lucene排序算法中只考虑了网页自身的内容,没有考虑网页间的关系的现状,提出了一个基于链接分析的Lucene排序算法。我们在Lucene的排序算法的基础上加入PageRank算法,算法中考虑网页点击信息和时间反馈因素,实现网页根据浏览点击率和网页文档的新旧程度,其PR值也随之上下浮动,并采用Sei-del迭代算法加速算法迭代收敛过程。实验结果表明,新的排序算法可以有效地提高Lucene全文检索应用的查准率和Ranking指标。  相似文献   

7.
为使用户在电子病历中的检索更贴近用户意图,提出用图结构来表示电子病历数据的研究方法。根据电子病历所具有的实体和属性联系与图的拓扑结构类似的特性,首先将电子病历数据和检索图结构化;将EMRSearch算法与EMR-Tree索引结合,并引入新的Upper bound模型进行裁剪;然后进行匹配,最后将匹配得到的结果集通过Sort Diversity算法进行多样性重排序。实验结果表明,该方法不仅可以提高用户检索效率,还可以提高用户搜索满意度。  相似文献   

8.
对网页PageRank算法的改进   总被引:19,自引:0,他引:19  
分析了著名搜索引擎Google采用的PageRank算法,指出其偏重旧网页,忽视专业站点以及对网页中的超链接评估不恰当等不足之处。改进算法考察了网页日期这一重要因素,并重新计算网页中超链接对网页的影响。网页结构中蕴涵着丰富的信息,在href,title等标记中文字对网页主题有重要作用,利用结构标记可以辅助判断网页的主题内容。试验结果表明,采用改进的算法可以提高判断网页重要性的准确度。  相似文献   

9.
对链接算法在搜索引擎检索结果排序中的应用进行研究,提出基于Page Rank和锚文本对检索结果进行二次排序,合理评价网页重要程度.实验结果表明,该方法在一定程度上能提高检索效果.  相似文献   

10.
传统的排名方法没有考虑用户的喜好、反馈和用户兴趣,很难满足用户的个性化需求.针对这个问题,提出一种新的网页排名方法,将网页的相似度、链接结构信息、用户偏好及用户反馈相结合进行页面排名.实验结果表明,改进的排序算法在一定程度上帮助用户提高检索网页的质量,最大限度地满足用户的需求.  相似文献   

11.
网络学习是现代信息社会一种便捷的学习方式,它为终身教育的实现提供了一个开放的学习环境和有效的学习手段.信息素养则是人们实现终身教育应具备的基本素质.从信息素养与网络学习的关系入手,探讨了网络学习者应具备的信息素养的内涵及其在网络学习中培养学生信息素养的途径.  相似文献   

12.
张东翰 《河南科学》2014,(2):150-152
蛛网图是一个重要的网络拓扑结构,研究它的染色对于网络权的分配和通信网络的设计有重要的指导作用.利用穷举法和组合分析法讨论了蛛网图的邻强边染色,得到了蛛网图的邻强边色数.  相似文献   

13.
Web应用威胁建模与定量评估   总被引:1,自引:0,他引:1  
为有效地对Web应用威胁进行评估,分析了Web应用威胁现状,定义了Web应用威胁模型,提出了一种利用攻击图对Web应用进行威胁建模和定量评估的方法。描述了攻击图建模过程,并给出其生成算法。研究了利用攻击图对Web威胁进行量化评估的分析方法。通过一个典型的Web应用网络环境,对攻击图生成算法和Web威胁评估方法进行了验证。对Web应用进行量化威胁评估的结果,有效揭示了web应用面临的各种可能的威胁隐患和攻击路径,对有效抵御风险具有重要的意义。  相似文献   

14.
针对Web网页中事物描述信息的特点,提出了一种通过本体指导网页信息抽取的方法。首先建立抽取对象的本体模型,并为本体属性概念添加定位信息映射模型,通过映射模型定位和分离样本页中包含语义信息的数据块,结合路径分析算法生成抽取规则,之后利用抽取规则对同类网页中的事物描述信息进行抽取,最后以资源描述框架(RDF)数据格式储存信息。抽取性能测试实验表明,抽取结果具有较高的准确率,与无规则抽取方法相比,具有更高的抽取效率。  相似文献   

15.
Web已经成为人们获取信息的重要来源,但Web上的信息并不都是真实可信的. 因此,如何帮助用户快速判断Web上大量信息的可信性成为一个亟待解决的问题. 文中提出一种基于内容信任的方法用以验证Web信息的可信程度. 采用条件随机场模型进行Web信息的主题提取,利用提取的主题在Web上搜集候选证据,并利用时效性、主题相关度等特征验证候选证据的可靠性,最后进行可信度计算. 实验结果表明提出的方法对评价Web信息的内容可信度是有效可行的.   相似文献   

16.
随着无线宽带IP接入技术的迅速发展,公共无线局域网(PWLAN)已成为研究的热,占’。对于整个局域网络和网络中的设备来说,一个现代化的网络管理系统是至关重要的。本文分析了PWLAN中基于Web的网络管理的设计方法.实现了管理系统中的拓扑结构发现、MIB管理、故障管理和配置管理模块,并对各个模块的设计结构、实现方法进行了详细的阐述。  相似文献   

17.
Web文档自动分类是Web挖掘中的重要研究内容。文档向量空间模型(VSM)是实现文档自动分类的基础,但如何排除冗余属性并降低向量空间的维数是一个难点。文中运用粗集理论对由样本文档集合构成的信息系统进行数据泛化,并求取文档的最优规约属性集,大大降低了文档的特征空间的维数,减少了冗余属性对文档分类的干扰,提高了分类效率。运用Fuzzy ARTMAP(adaptive resonance theory mapping)神经网络,利用其自适应分类和增量学习的优良特性,实现了对Web文档的在线自适应分类。  相似文献   

18.
利用知识工程相关方法和技术,构建了全球海底光缆知识图谱.知识图谱中,本体包含了8个实体类型、7个实体属性,实例层包含了1 949个实体、共计8 535个三元组.将所构建知识图谱与DBpedia、Geonames建立了2 378个链接,在此基础上,通过SPARQL查询,对海底光缆数据进行了分析.   相似文献   

19.
动态Web站点是目前国内外广泛应用于各个领域的一种传递信息的主要手段.虽然单个网页的设计比较简单,但是对于具有动态的、数据驱动的网站,其设计是非常复杂的.为了确保网站的质量和开发效率,本文在目前常用设计模式的基础之上,总结了大规模动态Web站点的设计方法,并提出使用Petri网模式进行设计.  相似文献   

20.
基于谱图的维度约简及其应用   总被引:1,自引:0,他引:1  
为了提取主要特征和方便处理,大多数机器学习任务都要求把高维数据投影到低维空间.在这些拓扑空间中,数据对象的相似性一般由欧式距离来度量.讨论了对某些应用而言,相似性也可以以路径为指标来衡量,并且讨论了特征选取中局部和全局的关系.基于图谱理论,提出了一种结合路径特征和距离特征的维数约简方法,旨在发掘和保持原有数据中有意义的局部近邻关系.在信息检索和人脸识别的试验中,它取得了较好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号