首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
自从Google公布了PageRank的计算公式后,许多网站抓住其缺陷进行作弊,严重影响了排序质量.本文认为PageRank算法中将权威值平均分配给每个链出页面进行计算是其算法的一个致命缺陷.给出了具有针对性的改进算法,将顺向链接网页中不同的网页赋予不同的权重,提升了重要网页的PageRank值,降低不重要网页的PageRank值,从而减弱了作弊行为对网页排名带来的影响.通过与原始PageRank算法和其它相关文献结果的比较,验证了改进的新算法在理论上和实际中都能达到更好的效果.  相似文献   

2.
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.  相似文献   

3.
陈战胜 《科学技术与工程》2012,12(34):9385-9389
在经典PageRank算法的基础上,提出了一种适用于大规模网页链接结构的改进PageRank算法-LSIPR。该算法利用大规模网页链接邻接矩阵的稀疏性,巧妙地使用了细胞数组,缩短了算法的计算时间和乘幂迭代的迭代次数。通过仿真实验表明,同改进PageRank算法、幂迭代PageRank算法和修正PageRank算法相比,LSIPR算法在大规模网页排名方面具有很好的收敛性,可以满足工程化应用的需求。  相似文献   

4.
蒋得虎 《科技资讯》2006,(24):144-144
1.PageRank的基本原理 PageRank的发明者对网络超链接结构和文献引文机制的相似性进行了研究,把引文分析思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为网页A投了网页B一票,增加了网页B的重要性。最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标就是PageRank值。简单地说,PageRank就是要从链接结构中获取网页的重要性,而网页的重要性决定着同时也依赖于其他网页的重要性。  相似文献   

5.
文章提出了一种基于用户兴趣的网页预分类的PageRank算法,改进后的算法是根据用户对某一类别网页的兴趣,将网页进行预分类.经验证,改进后的算法可以提高搜索引擎的查准率.  相似文献   

6.
深入剖析了全文检索引擎Lucene的排序算法,针对Lucene排序算法中只考虑了网页自身的内容,没有考虑网页间的关系的现状,提出了一个基于链接分析的Lucene排序算法。我们在Lucene的排序算法的基础上加入PageRank算法,算法中考虑网页点击信息和时间反馈因素,实现网页根据浏览点击率和网页文档的新旧程度,其PR值也随之上下浮动,并采用Sei-del迭代算法加速算法迭代收敛过程。实验结果表明,新的排序算法可以有效地提高Lucene全文检索应用的查准率和Ranking指标。  相似文献   

7.
为了提高网页排序算法的准确率,从网络用户对网页的浏览、回复、转载等行为引入用户行为因子,从网页结构关系的角度解决网页的权威性需求。结合用户行为和网页结构分析提出一种改进的PageRank算法BPR(PageRank based on User-behavior)。实验表明,该算法能够有效地解决PageRank排序算法中关于新网页排名过低和网页权威值均分的问题,提高了网页排序的精确性。  相似文献   

8.
网页之间的链接结构为评价网页的主题重要性提供了丰富的信息,但传统的基于链接结构评价的主题排序算法,虽然提出了用向量来表示网页在不同主题中的重要程度,但它们在计算过程中没有充分考虑网页本身的主题相关度.为解决这一问题,本文提出根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中.同时,根据网页的主题重要性排序,来指导专题爬行器的爬行方向.实验结果表明,基于网页主题重要性的排序测度TopicalRank比PageRank、TSPR(Topical-Sensitive PageRank)对专题爬行更有指导意义.  相似文献   

9.
将经典的PageRank算法和汉明距离相似度算法结合,提出一种新的网页排序方法。通过结合汉明距离(Hamming distance)相似度算法,计算检索词和网页文本相似度,提高搜索查准率;在增加检索词的同义词的搜索过程中,通过改进汉明距离相似度算法,提高搜索查全率。实验结果表明,该方法与PageRank算法相比,拥有了更好的效果。  相似文献   

10.
对网页PageRank算法的改进   总被引:19,自引:0,他引:19  
分析了著名搜索引擎Google采用的PageRank算法,指出其偏重旧网页,忽视专业站点以及对网页中的超链接评估不恰当等不足之处。改进算法考察了网页日期这一重要因素,并重新计算网页中超链接对网页的影响。网页结构中蕴涵着丰富的信息,在href,title等标记中文字对网页主题有重要作用,利用结构标记可以辅助判断网页的主题内容。试验结果表明,采用改进的算法可以提高判断网页重要性的准确度。  相似文献   

11.
信息检索中通过网页链接信息提取文档内部关系进行搜索结果重排可以提升检索系统的性能。通过Markov网络来展现文档内部关系,该网络更直观地解释了文档间的语义相关性,利用这种文档内部语义关系计算文档重要性对检索结果进行重排。根据文档分布特征阐述了Markov文档网络的构造算法,讨论了Top-k及其相关文档的重要性评分算法,修正初始检索的文档评分。通过这种方式,既保持了文档图的查询相关性,又丰富了文档内部关系,扩大了重排序范围。实验表明,在多个标准文档集上基于Markov网络的结果重排技术对检索性能有较大的稳定提升。  相似文献   

12.
针对目前普通搜索引擎无法对动态网页的查询结果进行有效索引与排序的问题,提出了一种对动态网页的排名算法Con ten tR ank,并介绍其在商务网站中的应用.该算法通过对与动态页面相关的内容进行挖掘分析,计算页面排名得分,从而实现对此类动态网页的查询结果的排序,提高排名的准确性.  相似文献   

13.
鉴于互联网上各种不良网页的影响,提出了一种使用贝叶斯分类算法和领域本体过滤中文网页的方法。 该方法根据正反例领域网页计算领域特征词的权重,建立领域特征词库并制作领域本体,根据正例领域网页得到本体元素权重库;使用贝叶斯分类算法得到候选网页;根据领域本体对候选网页进行语义相关度计算并进行网页过滤。 该方法可以区分相同领域网页中的正反例网页并可兼顾网页过滤的实时性。 通过游戏领域网页的测试,准确率和召回率均在98%以上, 语义分析游戏相关网页的平均时间为1~2 s, 对用户浏览网页速度的影响较小, 效果令人满意。   相似文献   

14.
为了解决现有的钓鱼网页分析方法,往往基于页面的文本特征,而忽略了页面的结构特征的问题,提出基于文档对象模型(document object model,DOM)结构聚类的钓鱼检测方法,其关键在于如何快速有效地计算网页的相似度。首先对获取的页面进行DOM结构解析,构建DOM树层次标签向量以刻画网页的结构特征;然后重新定义DOM树距离的概念,通过不同DOM树之间的距离来度量网页间的相似度;最后采用划分聚类思想实现网页的聚类。一系列的仿真实验表明,方法具有较高的召回率与精确率,运行时间也较短。  相似文献   

15.
针对传统网页排序算法PageRank和HITS中存在的主题漂移、检索效率低等不足,本文提出了一种改进算法PHIA(PageRank and HITS Improved Algorithm)。该算法继承了HITS算法获取根集和基本集的方法,并且使用根集中所有网页的PageRank值作为Hub和Authority初始迭代值,最后根据马尔可夫链求随机矩阵的特征向量的方式来获取网页排名的静态分布。基于随机关键词的检索结果可知,相比于传统的PageRank和HITS算法,改进PHIA算法具有更快的收敛速度,并且在一定程度上提高了网页排序的准确度。  相似文献   

16.
用ASP技术访问数据库   总被引:3,自引:0,他引:3  
通过ASP与ADO(ActiveX Data Objects)的组合,建立提供数据库住处的网页内容,在网页画面上执行SQL语句,允许访问者在浏览器上查询、插入、更新、删除站点服务器的数据库信息。这样,网页设计者可从烦琐的CGI程序中解脱出来。  相似文献   

17.
企业网站SEO技术研究   总被引:8,自引:0,他引:8  
SEO全称是searchengineoptimization,是针对用特定关键词在搜索引擎中搜索的情况,为了提升网站在搜索引擎中的排名而对网站进行的优化设计。SEO是提高网站访问流量的一个很好的方法。因为具有高质量的搜索结果,Google已成为许多人最喜爱的搜索引擎。文章在详细分析Google的排名算法的基础上,对企业网站HYP针对Google进行了优化。在优化过程中,为了充分发挥网站的PageRank潜能并引导网站的PR值流向重要的网页,对HYP的内部链接结构进行了精心组织,经优化设计后,当人们用关键词"butterflyvalve"在google中进行搜索时,HYP排名在前20名以内。  相似文献   

18.
PageRank-Pro: 一种改进的网页排序算法   总被引:9,自引:1,他引:8  
根据网页点击信息改进了原有的PageRank算法, 利用Seidel迭代算法加快了迭代收敛 过程. 实验结果表明, 改进后的迭代算法效率提高23%左右.  相似文献   

19.
王福海 《科技信息》2011,(15):J0077-J0077,J0227
对通用搜索引擎中的PageRank排序算法进行分析,针对原PageRank算法中主题漂移问题,提出一种与主题相关的改进算法,改进的PageRank值由链接重要性和内容重要性共同确定。  相似文献   

20.
空气质量评价是确定空气污染程度的一种手段,采用先进的人工智能技术对空气环境进行智能评价和预测, 成为一个新兴交叉研究领域。本文采用C4.5决策树算法构建空气质量评价系统,挖掘空气污染物和空气等级关系的历史数据,建立空气污染物-空气等级智能评价模型。通过实验仿真发现,C4.5决策树算法取得了较为理想的分类预测效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号