首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
一种高性能分布式Web Crawler的设计与实现   总被引:4,自引:0,他引:4  
介绍了一种大规模、高性能、分布式的Web信息搜集器的设计及其Java实现.提出了Crawler设计中数据结构、系统功能模块和相关算法新的设计思想;对设计与实现过程中需要解决的关键问题分布式协调机制、基于内存的URL存储管理等进行了讨论,并提供了现阶段的设计、实现方法和分布式无损链接分析算法.  相似文献   

2.
介绍了基于索引路径的数据抽取算法的不足,从代码角度和用户需求角度2个方面进行考虑,提出了一种进改良措施,有效地提升了数据抽取的准确率,从而大大减少了数据冗余.由于补充了记录、有效数据等定义,使得抽取出的数据仍然保有其在网页中的结构关系,为之后的语义标注工作带来了极大的方便,为深度网页(Deep Web)数据集成奠定了良好的基础.  相似文献   

3.
设计基于Java的跨平台可视化网页设计器。使用最新的Java开发工具JDK1.2,根据当前的输入信息,完成网页设计器应具有的各项功能。该网页设计器汇聚了目前流行的各种网页设计器的优点,同时具有其独特的特性--跨平台,可使用在多种操作系统上,实现了一个功能齐全的网页设计器。  相似文献   

4.
利用超链接信息改进网页爬行器的搜索策略   总被引:5,自引:0,他引:5  
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的.爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高.为此,给出了利用超链接信息改进网页爬行器搜索策略的算法.该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行.实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%.  相似文献   

5.
本文叙述近期在建立网页数据库及网页设计方面所做的研究,结合为东莞网络中心”淘金城人才网站”的实例阐明我们在网页数据库及网页设计的总体规划,网站的版面设计及网页数据库研究的观点与体会。  相似文献   

6.
梅林 《甘肃科技》2008,24(1):41-42,62
目前动态网站已经是网站建设的主流.网络搜索是从因特网上快速有效获取信息的主要手段,传统的针对静态网页处理为主的搜索引擎策略已经越来越不适用于现在的网络环境.本文总结了几种适用于动态网页的搜索引擎策略,大大增加了动态网页对搜索引擎的可见度.  相似文献   

7.
针对传统文本索引技术空间消耗大、分词不准确等问题,设计并实现了高性能文本索引系统。该系统采用压缩的全文自索引算法,节省了空间开销,避免了自然语言分词方法的影响,配合通配符搜索算法扩展了模糊搜索的功能,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度,整个系统的实现是基于Web方式的,可以跨平台运行。实验结果表明,该系统将文本索引的空间消耗降为原文本的50%左右,具有较高的实用价值。  相似文献   

8.
随着网络不断健全发展,人们对网络需求的渴望,站内搜索已成为便利的搜索方式,方便于人更加快捷地存取文件或所需要求。  相似文献   

9.
基于HTML Parser的网页信息提取技术研究   总被引:1,自引:0,他引:1  
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。  相似文献   

10.
文章运用模糊综合评判为核心的理论实现对网页的模糊自动归类,详细阐述了网页模糊归类算法(FWCA),并且通过一个实例阐明了实现过程.利用此算法设计实现了一个"网页模糊归类测试系统",通过分析大量实验数据,证明了利用此算法归类效果非常稳定和准确.  相似文献   

11.
针对海量web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型.对一篇新入库的网页文档,利用所包含的关键词迅速缩小进行相似度计算的网页范围,提高计算效率.实验结果表明该算法是有效的,小规模评测结果得到较好的效果.  相似文献   

12.
欺骗网页与正常网页有着极其相似的特征,诱导并欺骗用户输入个人机密信息,严重威胁着电子商务正常运行.基于此,提出了一个欺骗网页检测算法.算法首先对网页进行分割,然后提取各个块的特征及其相对位置关系,得到网页特征关系图,并以此计算出两个网页之间的相似度.如果发现可疑网页与某个受保护网页之间的相似度小于预设值,判定该可疑网页为针对受保护网页的欺骗网页.实验结果表明,本算法可以有效检测欺骗网页,具有一定的实用性.  相似文献   

13.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

14.
《网页设计》是现代教育技术专业的一门必修课。笔者根据自己从事网页设计的经验,从网页的内容、设计语言的选择、布局风格、数据库的应用、讨论区的创建以及网络安全等几个方面探讨了网页设计应注意的一些基本要素。  相似文献   

15.
由于超链接语言结构本身所提供的信息,网页分类问题不同于一般的文本分类。本文分析了网页内部特征,并在1000篇网页规模语料库的基础上,通过试验对比了三种特征选择方法对高维特征向量空间进行降维的效果。文章还提出了一种新方法,根据特征项所处的位置赋予不同权重的方法,实验表明这种由文本结构导出的权重计算方法能够取得很好的分类效果。  相似文献   

16.
通过对网页设计要素的分析与论述,阐明了网页设计的布局原理.  相似文献   

17.
教学网页是学校和教师开展网络教学的主要载体与途径,学习理论是进行教学网页设计的理论基础。灵活运用学习理论进行教学网页设计是提高教学网页质量的根本途径和方法。本文从这个方面出发,探讨了格式塔学习理论在教学网页设计中的应用。  相似文献   

18.
网页色彩设计的情感因素   总被引:1,自引:0,他引:1  
在网页设计中,色彩是营造情感的一个重要因素。用户对不同的网页色彩及其色调具有不同的情感反应。设计者在做站点界面色彩设计时,既要突出以用户为中心的设计理念,同时要深入分析色彩给用户带来的情感上的不同反应,目的是通过色彩的设计营造一种轻松、愉悦的使用环境。  相似文献   

19.
网页监控与恢复系统的设计与实现   总被引:1,自引:0,他引:1  
介绍一种三层结构的网页监控与恢复系统,对其功能、原理及软件编程实现方法做了详细阐述.系统采用三重代理专线结构,提供多种数字特征提取算法,对信息网站的有效文件从内容、读写权限、目录文件突增等多个角度全部同时监控报警,并能实时安全发布网页文件,为网站安全管理提供了很重要和直接的手段.  相似文献   

20.
基于聚类的智能网页推荐系统研究   总被引:1,自引:0,他引:1  
设计了一种智能网页推荐系统的架构,其中包括数据预处理、聚类分析和网页推荐3个子系统,可以根据网站的访问日志来对用户进行自动分类,进而对网站的新用户在线提供网页推荐。提出了路径间距离的计算方法,进而研究了聚类子系统的结构,并通过对微软网站中用户访问日志的仿真实验,说明了所述方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号