首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
PageRank算法是最为经典的Web结构挖掘算法,但是其存在主题漂移的问题,使得搜索结果中存在大量与查询主题无关的网页。在分析Page Rank算法的基础上,提出利用欧式距离计算主题相似度并融入传统的PageRank算法中,形成一个改进的网页排序算法,并把此算法应用到云计算环境中,研究MapReduce编程模型上的PageRank算法流程。  相似文献   

2.
在基于链接分析的排序算法PageRank分析基础上,提出了一种基于主题相关性和链接权重的Page-Rank改进算法.该方法首先随机选取任一链出页面,通过主题相关性评价算法获得改进的PageRank值,并重新排序.实验结果显示该算法提高了查询速度、查询准确率,并且算法具有良好的稳定性和可扩展性.  相似文献   

3.
网页之间的链接结构为评价网页的主题重要性提供了丰富的信息,但传统的基于链接结构评价的主题排序算法,虽然提出了用向量来表示网页在不同主题中的重要程度,但它们在计算过程中没有充分考虑网页本身的主题相关度.为解决这一问题,本文提出根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中.同时,根据网页的主题重要性排序,来指导专题爬行器的爬行方向.实验结果表明,基于网页主题重要性的排序测度TopicalRank比PageRank、TSPR(Topical-Sensitive PageRank)对专题爬行更有指导意义.  相似文献   

4.
为了从团伙犯罪中锁定核心犯罪嫌疑人,提高侦破案件的效率,本文提出了一种改进的PageRank算法分析团伙犯罪中各犯罪嫌疑人的嫌疑度值,通过主题相关性度量分析了嫌疑人与案件的关系,通过嫌疑人的重要性度量分析了嫌疑人在团伙犯罪中的地位。改进的算法可以有效协助侦查人员分析一个犯罪网络中各成员的关系,通过嫌疑度排序找出团伙中的核心人员和涉案人员,从而排除非涉案人员。通过一个案件实例验证了该算法的有效性,节省了办案人员的时间精力,提高办案效率。  相似文献   

5.
针对传统网页排序算法PageRank和HITS中存在的主题漂移、检索效率低等不足,本文提出了一种改进算法PHIA(PageRank and HITS Improved Algorithm)。该算法继承了HITS算法获取根集和基本集的方法,并且使用根集中所有网页的PageRank值作为Hub和Authority初始迭代值,最后根据马尔可夫链求随机矩阵的特征向量的方式来获取网页排名的静态分布。基于随机关键词的检索结果可知,相比于传统的PageRank和HITS算法,改进PHIA算法具有更快的收敛速度,并且在一定程度上提高了网页排序的准确度。  相似文献   

6.
互联网的迅速发展,数据不断增加,使得个性化数据的获取难度越来越大.主题爬虫作为一种垂直检索方式,已经成为一个热门研究领域.传统的主题爬虫往往是通过网页链接之间的关系下载网页,然后再计算下载的网页与给定主题之间的相关关系.传统的主题爬虫一方面割裂了网页链接结构和网页内容主题之间的关系,使得两个部分分开计算; 另一方面下载过程的网页主题相关性不强,会下载大量的主题无关网页.本文提出一种新的基于PageRank 算法主题爬虫算法将网页主题相似度计算与传统的PageRank 算法相结合,将网页链接结构与网页主题相关性结合在一起.另外本文将语义相似性引入到主题爬虫里,实验结果表明本文提出的基于语义相似聚合的主题爬虫算法大大提高了主题爬虫的查全率.  相似文献   

7.
对网页PageRank算法的改进   总被引:19,自引:0,他引:19  
分析了著名搜索引擎Google采用的PageRank算法,指出其偏重旧网页,忽视专业站点以及对网页中的超链接评估不恰当等不足之处。改进算法考察了网页日期这一重要因素,并重新计算网页中超链接对网页的影响。网页结构中蕴涵着丰富的信息,在href,title等标记中文字对网页主题有重要作用,利用结构标记可以辅助判断网页的主题内容。试验结果表明,采用改进的算法可以提高判断网页重要性的准确度。  相似文献   

8.
循证医学信息化若干关键技术的研究   总被引:1,自引:1,他引:0  
由于Web信息检索返回页面的数量巨大,对搜索结果进行排序成为影响搜索质量的一个重要问题.分析了搜索引擎Google采用的PageRank算法,指出其具有偏重旧网页和忽视专业站点的不足,考虑网页日期这一重要因素改进了PageRank算法,试验结果表明,改进的算法可以提高判断网页重要性的准确度.最后介绍了如何通过个性化服务来发现与用户兴趣相似的资源.  相似文献   

9.
PageRank算法是目前一种基于网络链接的比较成功的网页排序算法.首先对PageRank算法做了简单介绍,然后从数学的角度分析,PageRank可以被看作是一个马尔可夫随机游走模型,基于此模型对经典PageRank算法中的转移概率做了改进,根据网页的原PageRank值在链入网页的所有链出网页PageRank值总和所占比例定义转移概率.实验表明,改进后的算法在计算出网页的PageRank值,更具合理性.  相似文献   

10.
陈战胜 《科学技术与工程》2012,12(34):9385-9389
在经典PageRank算法的基础上,提出了一种适用于大规模网页链接结构的改进PageRank算法-LSIPR。该算法利用大规模网页链接邻接矩阵的稀疏性,巧妙地使用了细胞数组,缩短了算法的计算时间和乘幂迭代的迭代次数。通过仿真实验表明,同改进PageRank算法、幂迭代PageRank算法和修正PageRank算法相比,LSIPR算法在大规模网页排名方面具有很好的收敛性,可以满足工程化应用的需求。  相似文献   

11.
Google's algorithm on PageRank is analyzed in details. Some disadvantages of this algorithm is presented, for instance, preferring old pages, ignoring special sites and inaccurate judge of hyperlinks pointed out from one page. Furthermore, author's improved algorithm is described. Experiments show that the author's consideration on evaluating the importance of pages can make an improvement over the original algorithm. Based on this improved algorithm a topicspecific searching system have been developed.  相似文献   

12.
搜索引擎Google的体系结构及其核心技术研究   总被引:2,自引:0,他引:2  
Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率.  相似文献   

13.
搜索引擎PageRank算法的改进   总被引:2,自引:0,他引:2  
在研究搜索引擎关键技术和的基础上,剖析了PageRank算法,并针对PageRank算法的缺陷提出了改进方案.  相似文献   

14.
在文档词汇衔接评价LC方法的基础上, 提出基于权重的LC, 即WLC, 该方法通过在文档词图上运行PageRank算法获得词汇权重。根据词性信息使得PageRank算法偏向特定的词汇, 并提出PWLC方法。实验表明, 在文档级别上, 所提出的两种方法与人工评价的相关度都优于LC; 融合两种方法后, BLEU和TER在文档级别上的评价性能有显著提高。  相似文献   

15.
PageRank-Pro: 一种改进的网页排序算法   总被引:9,自引:1,他引:8  
根据网页点击信息改进了原有的PageRank算法, 利用Seidel迭代算法加快了迭代收敛 过程. 实验结果表明, 改进后的迭代算法效率提高23%左右.  相似文献   

16.
将经典的PageRank算法和汉明距离相似度算法结合,提出一种新的网页排序方法。通过结合汉明距离(Hamming distance)相似度算法,计算检索词和网页文本相似度,提高搜索查准率;在增加检索词的同义词的搜索过程中,通过改进汉明距离相似度算法,提高搜索查全率。实验结果表明,该方法与PageRank算法相比,拥有了更好的效果。  相似文献   

17.
为了提高专业搜索引擎的查询精度,提出了一种基于PageRank算法的改进搜索结果融合算法.首先,通过对元搜索引擎技术的分析,将rtf算法和PageRank算法进行融合,提出了基于PageRank算法的改进算法.该算法可以实现基于同义词、近义词的查询,将这种改进的算法在煤地质学专业搜索引擎上进行使用,实验结果表明,采用该...  相似文献   

18.
融入链接相关度策略的PageRank算法   总被引:1,自引:0,他引:1  
为实现对网页更好地评分,提出了融入链接相关度策略的PageRank算法.以体现人工智能的当代经典PageRank算法为基础,分析其基本思想并指出其在对网页评分中存在的不足,通过引入相关度计算使链接标题的质量和其所指向网页的内容产生联系,实现在网页中各个链接之间的竞争.通过实验和分析,新的算法在不影响原算法的优点和效率的同时能更好地进行网页评分,在网页优先级算法上向人工智能和语义网又迈进了一步.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号