首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 234 毫秒
1.
频繁的磁盘I/O操作导致多线程Web图像搜索器的性能显著下降,为此提出一种磁盘I/O缓冲方法,它包括待采URL的双队列缓冲和图像存储与URL存储中的循环缓冲池等2种措施.在URL待采队列中采用双队列缓冲,当其中一个队列处于使用状态时,另一队列执行从磁盘读取新URL的操作,使得各个线程可以不间断地获取URL.2个循环缓冲池分别用于图像和URL磁盘存储操作中,其工作原理相同.实验结果显示,磁盘I/O缓冲方法显著改善了多线程Web图像搜索器的性能.  相似文献   

2.
网页去重策略   总被引:1,自引:0,他引:1  
提出基于同源网页去重与内容去重的策略.通过对网址URL进行哈希散列完成对同源网页的去重,并对内容相同或近似的网页采用基于主题概念的去重判断.实验表明,该方法有效且去重效果良好.基于上述算法实现了教育资源库教育资讯搜索引擎系统.  相似文献   

3.
李强 《甘肃科技》2012,28(3):27-29
Internet的发展,为我们提供了海量的信息资源,但由于Web的复杂性,目前传统的搜索引擎只能检索出其中一部分信息.大量的隐藏信息对这些搜索引擎是不可见的.这些信息隐藏在Web页面的搜索表单中,存在于大型的数据库.用户必须通过查询其后端的数据库才能获得这些Deep Web信息.首先介绍了Deep Web引擎的一般原理,列举了目前Deep Web的流行技术,以及Deep Web搜索引擎的研究现状,并给出了Deep Web搜索引擎的完整实现内容框架,同时探讨了数据库自动发现、数据库自动选择、返回结果自动抽取、结果聚合等4个实现Deep Web搜索引擎的关键技术.  相似文献   

4.
针对现有行为建模方法难以描述行为语义的问题,提出了一种分层次的用户行为元模型以及一种基于页面元数据的Web用户行为建模方法.该方法从URL的访问、活动、事务3个层次建立Web用户的行为模型,并对页面元数据获取以及在URL的访问、行为、事务之间转化等问题进行了说明.方法及模型不仅描述了用户访问序列信息,还增加了访问内容的局部主题和关键词等信息,为进一步获取Web用户的行为语义特征奠定了很好的基础.通过西安交通大学的Web教学系统验证表明,利用所提方法获得的序列划分准确率达86%以上.  相似文献   

5.
谭榕 《科技信息》2009,(27):306-306
本文介绍了数据挖掘和网络信息挖掘的概念,特别介绍了搜索引擎以及网络地址URL的使用技巧,最后推荐了一些Web网上的检索与查询资源。  相似文献   

6.
基于XQuery的Deep Web搜索系统的设计与实现   总被引:2,自引:0,他引:2  
孙彬  王东  李娟 《科学技术与工程》2007,7(16):4080-4084
随着Web技术的发展,越来越多的信息需要通过Deep Web来获取,爬虫搜索系统是完成Deep Web搜索的重要技术手段。提出一种基于XPath的Web搜索系统的设计方法,它通过采集URL目标,分析目标URL的Web结构,维护URL本体知识库,达到深度积累页面的目的。  相似文献   

7.
陆正  尤澜涛  周晨  陈栋良 《科技信息》2012,(33):142-143
本文以笔者参与的某公司门户网站为例,从ASP.NET网站的搜索引擎优化及性能优化方面入手,使用URL重写、内容优化、缓存优化等手段,探讨怎样使网站更容易被搜索引擎收录、提高搜索排名,以及怎样提高Web程序运行效率。  相似文献   

8.
基于URL语义分析的Web用户会话识别方法   总被引:1,自引:0,他引:1  
由于现有基于时间和引用的经典会话识别方法在复杂Web使用模式挖掘中存在局限性,提出了一个基于URL语义分析的用户会话识别新方法.这个方法借助Web目录服务,将Web日志中的每一条URL记录赋予一定的语义信息,并给出一些测度指标对URL之间的语义相似度进行评价.对静态和流动两类Web日志情况进行分析,分别给出了语义奇异值...  相似文献   

9.
利用支持向量回归确定相关Web查询   总被引:1,自引:0,他引:1  
对用户输入的查询请求,如果搜索引擎系统能给出一个相关查询列表,将有助于用户进行查询修正,进而检索到用户所需要的信息.文中提出了一种利用支持向量回归确定相关Web查询的新方法.对一个给定的Web查询,首先从用户的使用记录中抽取候选查询的5个量化指标:被查询的次数、被查询的用户量、用户在反馈结果中的点击次数、与给定查询间的共有词项个数和点击相同网址(URL)的个数;然后用手工标记部分训练数据,进而建立支持向量回归模型,根据相关度的大小确定相关Web查询.实验结果表明该方法具有较高的准确度.  相似文献   

10.
针对搜索引擎查找准确率低、检索效果差的问题,提出了基于本体的搜索引擎.该搜索引擎首先构建相关主题本体知识库,再利用网络爬虫下载网页内容和网页结构特征,并对内容进行智能识别,找出与本体相关内容识别为相关本体,通过与本体知识库内容对比,筛选特定的统一资源定位器(URL)地址及与计算机网络安全相关的本体,从而发现计算机网络安全相关信息,同时建立不同服务提供者之间的关联关系及服务提供者之间的层级关系,最后将抽取出的计算机网络安全信息存储到以本体为模型创建的数据库中,并成为用户搜索服务的最终数据来源.实验结果表明,本体可提高搜索引擎的查准率,减少冗余信息,从而提高查询精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号