首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
网页作弊与反作弊技术综述   总被引:1,自引:0,他引:1  
随着网络信息爆炸式的增长,搜索引擎成为人们首选的获取信息的主要途径。能否在搜索引擎的排名中占有比较靠前的位置,将在一定程度上决定网页的访问量。一些网站并不是通过提高网页质量来提高其在搜索引擎中的排名,而是根据搜索引擎自身的特点,采用欺骗手段来提高排名,这就是网页作弊。网页作弊是搜索引擎面临的重大挑战之一。本文将结合常见的网页作弊的方法,阐述当前已经存在的比较有效的反作弊技术。  相似文献   

2.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

3.
一种基于后缀树的中文网页层次聚类方法   总被引:1,自引:3,他引:1  
为了便于用户浏览搜索引擎产生的搜索结果,结合STC算法和变色龙算法提出了一种中文网页的层次聚类方法-STCC算法。该方法采用雅可比系数修改了STC算法中基本类相似度的计算方法,然后根据基本类相似度矩阵,利用变色龙算法完成网页聚类。实验结果表明:STCC算法与STC算法相比。聚类精度提高将近10%,避免了单链接算法的链式效应,适用于大规模网页聚类。  相似文献   

4.
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。  相似文献   

5.
Web search engines are very useful information service tools in the Internet. The current web search engines produce search results relating to the search terms and the actual information collected hy them. Since the selections of the search results cannot affect the future ones. they may not cover most people‘s interests. In this paper, feedback informarion produced by the users‘ accessing lists will be represented By the rough set and can reconstruct the query string and influence the search results. And thus the search engines can provide self-adaptability.  相似文献   

6.
Focused crawlers are important tools to support applications such as specialized Web portals, online searching, and Web search engines. A topic driven crawler chooses the best URLs and relevant pages to pursue during Web crawling. It is difficult to deal with irrelevant pages. This paper presents a novel focused crawler framework. In our focused crawler, we propose a method to overcome some of the limitations of dealing with the irrelevant pages. We also introduce the implementation of our focused crawler and present some important metrics and an evaluation function for ranking pages relevance. The experimental result shows that our crawler can obtain more "important" pages and has a high precision and recall value.  相似文献   

7.
当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果.但用户提供的查询词往往非常简单,因此搜索引擎难以确定用户的查询意图.为此,给出了一种利用海量clickthrough数据进行网页内容相关性挖掘的方法,在此基础上给出了一种反馈式搜索引擎(FSE)框架及相关算法.FSE根据网页相关性动态生成查询结果,以期提供给用户更中肯和个性化的信息.基于真实点击数据,进行了网页相关性矩阵的压缩实验和有效性实验,证明了该框架的可行性.  相似文献   

8.
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.  相似文献   

9.
一种基于时间感知的搜索引擎模型   总被引:2,自引:0,他引:2  
目前许多用户查询与网页信息的时效性密切相关,但当前的搜索引擎在处理许多具有时间属性的查询时还不尽如人意。通过引入基于时间感知的用户查询理解、索引结构和页面排序算法,提出一种基于用户查询日志挖掘的时间感知搜索引擎模型,来克服当前主流搜索引擎在处理具有时效性查询时存在的不足在真实的Web环境下广泛进行的实验结果表明了该模型的有效性。  相似文献   

10.
Web spamming是指故意误导搜索引擎的行为,它使得一些页面的排序值比它的应有值更高。最近几年,随着webspam的急剧增加,使得搜索引擎的搜索结果也降低了一些等级。文章首先讨论了Spam的基本概念和影响,然后详细地分析了当前的各种Spamming技术,包括termspaming、link spamming和隐藏技术三种类型。我们相信本文的分析对于开发恰当的反措施是非常有用的。  相似文献   

11.
随着互联网用户的不断增多以及搜索引擎的广泛使用,用户间进行协同Web搜索的行为不断增多,然而目前的主流搜索引擎和Web浏览器均针对用户的单独搜索行为设计,不便于进行协同Web搜索。在回顾相关研究的基础上,通过对Web搜索引擎的发展分析,指出存在两种实现协同Web搜索的方式,提出了一种基于CBR(case-based reasoning)的协同Web搜索模型,并介绍了基于此模型实现的两套协同Web搜索原型系统。  相似文献   

12.
针对目前普通搜索引擎无法对动态网页的查询结果进行有效索引与排序的问题,提出了一种对动态网页的排名算法Con ten tR ank,并介绍其在商务网站中的应用.该算法通过对与动态页面相关的内容进行挖掘分析,计算页面排名得分,从而实现对此类动态网页的查询结果的排序,提高排名的准确性.  相似文献   

13.
智能桌面元搜索引擎中个性化研究   总被引:1,自引:0,他引:1  
随着WWW信息量的急剧膨胀,当前的搜索引擎已经不能够很好的满足人们信息搜索的需求,元搜索引擎作为下一代功能更强大、更具智能的方案而成为当前的研究热点.本文针对桌面搜索引擎易于获得单个用户个性化信息的特点,提出了个性化桌面元搜索引擎的解决方案,从它的体系结构到局部的技术难点都作了详细描述,同时最后给出总结和展望.  相似文献   

14.
The Internet presents numerous sources of useful information nowadays. However, these resources are drowning under the dynamic Web, so accurate finding userspecific information is very difficult. In this paper we discuss a Semantic Graph Web Search (SGWS) algorithm in topicspecific resource discovery on the Web. This method combines the use of hyperlinks, characteristics of Web graph and semantic term weights. We implement the algorithm to find Chinese medical information from the Internet. Our study showed that it has better precision than traditional IR (Information Retrieval) methods and traditional search engines.  相似文献   

15.
基于本体语义的定题爬虫   总被引:3,自引:0,他引:3  
定题爬虫能迅速获取网络上特定主题的大量信息,对专业搜索引擎及数据挖掘应用都具有重大价值.针对目前通用的基于关键词主题过滤策略的不足,在概念聚集思想启发下,提出了基于本体语义的主题过滤策略.同时根据网页具有不同位置不同信息重要性的特点,提出了改进的加权特征项权值计算公式,实现基于语义的网页实时过滤.为进一步提高爬虫的工作效率提出链接相关度预测算法.对比实验表明此策略具有可行性.  相似文献   

16.
商友忠 《科技信息》2007,(15):104-105
Web信息的急剧增长使搜索引擎专用化成为发展趋势。重点论述了主题搜索引擎的信息采集策略,并给出了一种比较理想的建筑业信息搜索引擎设计方案。  相似文献   

17.
搜索引擎垃圾网页作弊的检测问题一般被视为一个二元分类问题,基于机器学习的分类算法建立分类器,将网页分成正常网页和垃圾网页2类.现有的基于内容特征的垃圾网页检测模型忽略了网页之间的链接关系,故构建了软间隔支持向量机分类器,以网页的内容特征作为支持向量,根据网页之间的链接具有相似性的特点定义了惩罚函数,使用样本集学习,得出了线性支持向量机网页分类器,并对分类器的分类效果进行了测试.实验结果表明基于支持向量机的分类器的效果明显好于使用内容特征构建的决策树分类器.  相似文献   

18.
基于概念分组的Web搜索结果聚类算法   总被引:2,自引:0,他引:2  
为了便于用户浏览搜索引擎返回的搜索结果,快速有效地定位有价值的Web文档,提出了基于概念分组的Web搜索结果聚类算法.首先,建立特征词同现网络,利用概念分组技术挖掘特征词之间的语义关联,形成主题概念类;然后,计算文档与各概念类之间的距离,据此实现Web搜索结果的聚类;最后,综合考虑特征词在类内和文档集中的重要性进行类别标签的选择.实验结果表明本算法具有较好的聚类性能,明显优于k-均值算法,且产生的类别标签容易理解.  相似文献   

19.
基于模拟退火机制的网络蜘蛛搜索策略   总被引:2,自引:0,他引:2  
在分析传统网络蜘蛛搜索机制特点的基础上,将模拟退火机制引入网络蜘蛛的链接选择策略。提出了一种基于模拟退火机制的启发式网络蜘蛛搜索算法。针对国外四所著名大学计算机系网站中计算机论文资源的搜索实验表明,新算法可以有效提高搜索效率。  相似文献   

20.
The Web cluster has been a popular solution of network server system because of its scalability and cost effective ness. The cache configured in servers can result in increasing significantly performance, In this paper, we discuss the suitable configuration strategies for caching dynamic content by our experimental results. Considering the system itself can provide support for caching static Web page, such as computer memory cache and disk's own cache, we adopt a special pattern that only caches dynamic Web page in some experiments to enlarge cache space. The paper is introduced three different replacement algorithms in our cache proxy module to test the practical effects of caching dynamic pages under different conditions. The paper is chiefly analyzed the influences of generated time and accessed frequency on caching dynamic Web pages. The paper is also provided the detailed experiment results and main conclusions in the paper.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号