首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
林强 《咸宁学院学报》2012,32(2):154-156
介绍了笔者所设计的一个校园网搜索引擎(SzCompass)中的网页排序算法。首先详细分析了通用搜索引擎常用的PageRank和HITS网页排序算法;通过比较在校园网和Internet上搜索的主要区别,设计了一种适合校园网的多参数加权的网页排序算法,并对利用该算法实现的搜索引擎的检索效率进行了实验分析。  相似文献   

2.
基于超链接分析搜索引擎页面排序算法的剖析   总被引:1,自引:0,他引:1  
对搜索结果的排序是搜索引擎中至关重要的一项技术,算法的好坏直接关系到用户输的搜索引擎页面排序算法。对两种最基本的页面排序算法PageR ank和H ITS的算法思想和实现原理进行详细阐述。通过分析对比,总结出它们各自存在的优点和不足进而指出适合其应用的条件领域。最后指出搜素引擎应用超链接分析时应注意的一些影响因素。  相似文献   

3.
搜索引擎查询的结果按照一定的规则排序供用户查看,这种规则就是搜索引擎排序算法。目前大多数搜索引擎仍然是通过对搜索引擎的链接关系进行分析,找到相对比较重要的网页。这些算法大多是以PageRanks等经典算法为基础,进行改良,加入各自偏重的参数形成综合的排序模型。  相似文献   

4.
对网页PageRank算法的改进   总被引:19,自引:0,他引:19  
分析了著名搜索引擎Google采用的PageRank算法,指出其偏重旧网页,忽视专业站点以及对网页中的超链接评估不恰当等不足之处。改进算法考察了网页日期这一重要因素,并重新计算网页中超链接对网页的影响。网页结构中蕴涵着丰富的信息,在href,title等标记中文字对网页主题有重要作用,利用结构标记可以辅助判断网页的主题内容。试验结果表明,采用改进的算法可以提高判断网页重要性的准确度。  相似文献   

5.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

6.
随着互联网信息多样化和爆炸式的发展,人们面临着"信息迷航"和"信息过载"的困扰;当代社会对信息检索的需求不仅仅局限在通用搜索引擎,更需要针对特定领域设计出个性化搜索引擎。通过分析研究网络搜索引擎的组成结构及利用Lucene构建搜索引擎的方法,在Lucene原有网页排序算法基础上,结合PageRank算法的思想和用户喜好权重,提出更具个性化的网页排序算法,以反馈给用户符合其个性化需求的搜索结果。在.Net开发平台,利用C#语言,结合几种开源API,完成了个性化网络搜索引擎系统的设计与实现。系统界面设计采用了XAML及Ajax技术,搜索结果显示模块采用异步传输技术,使用户界面更加友好。通过测试和分析,系统实现了个性化搜索,用户不翻页也可以查看全部搜索内容,用户的体验度得到了提升。下一步将增加爬虫对于网络错误信息的处理及对于病毒网站的过滤功能。  相似文献   

7.
一种基于时间感知的搜索引擎模型   总被引:2,自引:0,他引:2  
目前许多用户查询与网页信息的时效性密切相关,但当前的搜索引擎在处理许多具有时间属性的查询时还不尽如人意。通过引入基于时间感知的用户查询理解、索引结构和页面排序算法,提出一种基于用户查询日志挖掘的时间感知搜索引擎模型,来克服当前主流搜索引擎在处理具有时效性查询时存在的不足在真实的Web环境下广泛进行的实验结果表明了该模型的有效性。  相似文献   

8.
网页排序技术是搜索引擎的核心技术之一. 校园网搜索引擎是指以一个校园网内的Web网页为搜索内容的搜索引擎. 由于校园网相对于互联网和内联网的特殊性,各种启发式条件对校园网网页排序优化的影响及排序融合技术在校园网搜索引擎的作用是研究的重点. 实验结果表明各个启发式条件的影响和实验数据集有关,而不同启发式条件组合经过排序融合后所获得的查全率差别很大(2%~48%). 查全率大于35%的启发式条件组合至少包含4个启发式条件,即校园网搜索引擎的排序需要依据数据集综合考虑多个启发式条件的排序结果. 排序融合技术是校园网搜索引擎具有良好的查全率的必要技术之一. 基于排序融合技术的网页排序模块已经应用于清华大学校园网搜索引擎中.  相似文献   

9.
通过对现有个性化搜索引擎排序算法的研究,提出了一个新的排序算法.该算法首先在不同粒度上多次使用SVD技术和k-means聚类技术,将用户浏览历史及其所包含的词在不同层次上进行文档聚类和词聚类,创建两棵加权兴趣树:文档类树和词类树.其中,树中每个节点的权值表示用户对该类文档或该类词的感兴趣程度.接着,利用朴素贝叶斯分类器对搜索引擎得到的网页进行文档分类和词分类,并根据分类结果进行网页评分.最后,将网页根据文档得分降序排列.实验表明该方法能为用户提供更为精确的个性化排序.  相似文献   

10.
网页链接关系的设计影响到用户的访问效率,通过日志挖掘发现网页间的关联关系,使网站设计更趋合理,便于用户访问.为了提取页面间的关系,日志数据预处理后,利用Apriori算法发现频繁集,找到页面间的关联规则.网站结构主要由网页和网页间的超链接组成,针对网页超链接结构的特点:一条超链接只能建立在两个网页上.发现频繁集只需找出所有2-项集即可.提出网页超链接挖掘的Apriori改进算法(WPHM-Apriori).实验表明,该算法有效地降低Apriori的时间复杂度.  相似文献   

11.
针对传统网页排序算法PageRank和HITS中存在的主题漂移、检索效率低等不足,本文提出了一种改进算法PHIA(PageRank and HITS Improved Algorithm)。该算法继承了HITS算法获取根集和基本集的方法,并且使用根集中所有网页的PageRank值作为Hub和Authority初始迭代值,最后根据马尔可夫链求随机矩阵的特征向量的方式来获取网页排名的静态分布。基于随机关键词的检索结果可知,相比于传统的PageRank和HITS算法,改进PHIA算法具有更快的收敛速度,并且在一定程度上提高了网页排序的准确度。  相似文献   

12.
基于PageRank和HITS的Web结构挖掘算法研究   总被引:1,自引:0,他引:1  
在对Web结构挖掘的典型算法探讨的基础上,提出了一种PageRank算法和HITS算法相结合的改进算法,并对该算法进行了简要分析。  相似文献   

13.
介绍了Web挖掘的有关理论.着重分析了结构挖掘中基于页面链接结构的PageRank算法和对其有改进意义的HITS算法,进而介绍了内容挖掘常用的一些算法以及使用记录挖掘应考虑的问题.  相似文献   

14.
PageRank-Pro: 一种改进的网页排序算法   总被引:8,自引:1,他引:8  
根据网页点击信息改进了原有的PageRank算法, 利用Seidel迭代算法加快了迭代收敛 过程. 实验结果表明, 改进后的迭代算法效率提高23%左右.  相似文献   

15.
基于依赖结构分析的类重要性度量方法   总被引:1,自引:0,他引:1  
为支持自动识别系统中重要的类,提出了一种基于软件依赖结构分析的类重要性度量方法.该方法首先用一个图模型表达类之间的3种依赖关系,包括类-类继承依赖、类-属性交互依赖和类-方法交互依赖,然后用PageRank, HITS和Betweenness Centrality算法通过对依赖关系结构的全局分析来度量类的重要性.该方法仅使用在软件开发的分析和设计阶段可以得到的信息,因而可用来在软件开发的早期识别系统中重要的类.实验结果表明,在识别重要的类时,该方法产生与简单方法不同的结果.  相似文献   

16.
为有效解决元搜索引擎结果排序的问题,提出了一种基于样本加权的位置文本排序算法。分析了现有基础算法,并在充分考虑结构信息的基础上将记录的PageRank值转化为权值。结合文本信息及其在结果列表中的位置信息实现局部相似度的调整,对排序位置的相关分值进行了规范化处理。对摘要排序算法进行了改进,提出了查询词条匹配度和词条间关联度的概念。最后将各相关分值进行合并得到搜索结果的最终相关度。实验结果表明该方法的可行性和有效性。  相似文献   

17.
王福海 《科技信息》2011,(15):J0077-J0077,J0227
对通用搜索引擎中的PageRank排序算法进行分析,针对原PageRank算法中主题漂移问题,提出一种与主题相关的改进算法,改进的PageRank值由链接重要性和内容重要性共同确定。  相似文献   

18.
企业网站SEO技术研究   总被引:8,自引:0,他引:8  
SEO全称是searchengineoptimization,是针对用特定关键词在搜索引擎中搜索的情况,为了提升网站在搜索引擎中的排名而对网站进行的优化设计。SEO是提高网站访问流量的一个很好的方法。因为具有高质量的搜索结果,Google已成为许多人最喜爱的搜索引擎。文章在详细分析Google的排名算法的基础上,对企业网站HYP针对Google进行了优化。在优化过程中,为了充分发挥网站的PageRank潜能并引导网站的PR值流向重要的网页,对HYP的内部链接结构进行了精心组织,经优化设计后,当人们用关键词"butterflyvalve"在google中进行搜索时,HYP排名在前20名以内。  相似文献   

19.
将经典的PageRank算法和汉明距离相似度算法结合,提出一种新的网页排序方法。通过结合汉明距离(Hamming distance)相似度算法,计算检索词和网页文本相似度,提高搜索查准率;在增加检索词的同义词的搜索过程中,通过改进汉明距离相似度算法,提高搜索查全率。实验结果表明,该方法与PageRank算法相比,拥有了更好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号