首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

2.
信息检索中基于链接的网页排序算法   总被引:5,自引:0,他引:5  
介绍超链接环境下基于链接的网页排序算法,比较和分析了PageRank算法和HITS算法,指出了PageRank算法更适合于搜索引擎的服务器端,而HITS算法更适合于搜索引擎的客户端,还构造并初步实现了在信息检索中,应用超链接环境下网页排序算法的综合模型。  相似文献   

3.
基于网页分块技术主题爬行器的实现   总被引:1,自引:0,他引:1  
针对目前通用搜索引擎搜索到的结果过多、 与主题相关性不强的现状, 提出一种基于网页分块技术的主题爬行器实现方法, 并实现了一个原型系统Crawler1. 实验结果表明, 本系统性能较好, 所爬网页的相关度在55%以上.  相似文献   

4.
黄昊晶 《科技资讯》2011,(21):13-14
爬虫作为网页搜索下载程序,其网络爬行性能决定了搜索引擎的性能和数据质量。本文通过分析聚焦爬虫的特点和网络环境,总结出三类制约爬行性能的主要问题,分别是DNS查询及缓存设置、内外部分布式爬行特点和网页URL静态与动态分配策略。结论为聚焦爬虫使用URL静态分配策略结合异步DNS查询及缓存设置,在内部分布式爬行时可有效提高网络爬行性能。  相似文献   

5.
网络搜索引擎的工作原理是利用蜘蛛程序发现和搜集网页信息,建立索引库,再在索引库中快速检出文档。本文分析了搜索引擎的工作原理,研究了常用搜索引擎的类型与基本技术指标。探讨了搜索引擎的应用方法和技巧。  相似文献   

6.
随着互联网的信息以指数级增长,用户希望搜索引擎能够提供面向专业的更准确智能搜索服务,主题搜索引擎的研究显得越来越有意义。本文对基于本体语义主题搜索引擎系统的关键技术进行研究。首先建立主题搜索引擎系统流程,对主题网络爬虫,网页主题相关度、网页主题分类进行了算法研究。最后以服装纺织领域的主题搜索实现为例,说明主题搜索引擎系统能更准确快速实现专业搜索服务。  相似文献   

7.
当前主流的搜索引擎根据查询词在网页中的出现频率,辅以网页权威性等信息,生成查询结果.但用户提供的查询词往往非常简单,因此搜索引擎难以确定用户的查询意图.为此,给出了一种利用海量clickthrough数据进行网页内容相关性挖掘的方法,在此基础上给出了一种反馈式搜索引擎(FSE)框架及相关算法.FSE根据网页相关性动态生成查询结果,以期提供给用户更中肯和个性化的信息.基于真实点击数据,进行了网页相关性矩阵的压缩实验和有效性实验,证明了该框架的可行性.  相似文献   

8.
林强 《咸宁学院学报》2012,32(2):154-156
介绍了笔者所设计的一个校园网搜索引擎(SzCompass)中的网页排序算法。首先详细分析了通用搜索引擎常用的PageRank和HITS网页排序算法;通过比较在校园网和Internet上搜索的主要区别,设计了一种适合校园网的多参数加权的网页排序算法,并对利用该算法实现的搜索引擎的检索效率进行了实验分析。  相似文献   

9.
网络爬虫的结构设计研究   总被引:1,自引:0,他引:1  
王军  彭建 《科技信息》2007,(27):96-97
搜索引擎技术随着互联网的日益壮大而飞速发展。它成功的商业运作也造就了Google、百度等这样的商业奇迹。作为搜索引擎的重要组成部分,Spider网络爬虫的爬行效率对搜索引擎至关重要。本文对搜索引擎进行了相关介绍,概述了Spider的结构框架、在爬行不同阶段的各个状态等。  相似文献   

10.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

11.
语义化Web的理论基础与技术基础   总被引:1,自引:0,他引:1  
语义Web并非一个独立的Web,而是当前Web的延伸,其目标是让计算机能够"理解和处理"现在的Web仅仅能显示的数据,并为人们提供各种智能服务.目前在世界范围内对语义Web的研究尚处于起步阶段,与国外相比,我国对语义Web的研究相对较晚.本文简单介绍了语义Web的概念和体系结构,对语义化Web的理论基础与技术基础进行了分析,总结出了语义化Web研究中的关键问题.  相似文献   

12.
黄侨 《科学技术与工程》2012,12(15):3630-3635
目前,Web应用“捕捉/回放”式测试复用率不高,而编写测试脚本的测试方法对测试人员的程序设计能力又有较高要求。针对这个问题,根据Web应用的特性提出了一套自动化测试框架的设计,并基于开源Web自动化测试工具Selenium为此框架设计了一套“私有语言”,即基于XML的数据驱动文件的解析规则,最后实现了基于此数据驱动文件的Web自动化测试框架。数据驱动文件描述了Web应用行为的多请求/响应的模型,清晰地定义了外部测试数据以避免数据“硬编码”的缺陷。利用此框架,测试人员仅仅通过编写XML数据驱动文件就能进行测试工程的开发,有效降低测试门槛,提高测试效率。  相似文献   

13.
Web服务作为一种新的分布式计算系统,具有许多传统的分布式系统所不具有的特性,如松耦合性、集成的灵活性等。由于它建立在现有的网络协议之上,充分利用了现有的网络下层结构,Web服务很快得到了广泛接受。本文简明扼要地讲述了Web服务的产生背景和概念模型,并对服务模型进行了系统的论述。  相似文献   

14.
针对M IT L inco ln L ab数据集评测方法中背景超文本传输协议(hypertex t transfer protoco l,HTTP)流量在用户建模和流量模拟时会造成偏差,提出了一种基于用户轮廓的W eb流量模拟方法。该方法在应用层进行数据采集并对用户行为特征进行建模生成用户轮廓知识库,模拟时可根据不同网络环境特征扩展生成虚拟用户轮廓。实验分析表明,该方法能同时兼顾流量模拟的扩展性和真实性,生成的数据集流量特征与实际网络相吻合,用于入侵检测系统评测时能有效降低误报率指标。  相似文献   

15.
16.
基于B/S架构的系统又称为Web应用系统,是建立在Web网站之上的系统,而且加以扩展。即添加的业务功能。Web应用就是一个允许其用户利用Web浏览器执行业务逻辑的Web系统。使用UML的web应用扩展构建了一个基于B/S架构的产品销售系统。作为“无锡市制造业协作网”扩展功能的一部分。  相似文献   

17.
以《面向对象程序设计网上 CAI系统》为例 ,说明了在 Internet上基于 Web的 CAI系统的开发与设计的目的、常用的开发工具与主要的设计技术 ;并对用 ASP设计网络应用程序的要点进行了讨论 .  相似文献   

18.
Web Services是实现信息发布的一种软件与通讯技术。提出了Web Services技术与设备故障诊断技术结合的全新思路,将设备的工艺流程、工艺参数、信号特征、故障推理诊断结论等通过软件与通讯的方式实现数据的动态交换和人机界面(HMI)的交互,供用户操作,从而形成网络化的系统信息发布。介绍了Web Services的基本原理和特点,结合国家“十五”计划“八六三”项目课题“网络化、智能化大型旋转机械在线诊断系统”,对在线诊断系统中信息发布的常见内容进行了归纳分类,描述如何采用DELPHI6 Web Services组件,实现网络化、智能化大型旋转机械在线诊断系统的信息发布、查询等功能。  相似文献   

19.
提出基于记忆的关键信息基础设施安全检测技术,针对传统的入侵检测技术(IDS)、Web应用防火墙(WAF)技术在Web攻击检测方面的局限性,通过对Web应用攻击周期3个过程的全面分析理解,基于攻击链技术,可以对Web数据进行双向分析即时数据及历史数据,检测各种碎片化、持续性的攻击手段,并且能在黑客利用攻击时,同步感知各种漏洞,实时了解和掌握网络风险状况.   相似文献   

20.
Web Services是近年来出现的最重要的技术之一。它可以解决跨平台、分布式计算等问题,代表了下一代网络计算和企业应用的必然趋势。但是Web Services并不是只能解决“大”问题,本文中将利用其来实现通过LAN和Internet两种方式访问数据库的统一操作登录界面。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号