首页 | 本学科首页   官方微博 | 高级检索  
     

基于Deep Web Search 技术的主题式爬虫模块研究与设计
引用本文:孟敬,刘寿强. 基于Deep Web Search 技术的主题式爬虫模块研究与设计[J]. 科技导报(北京), 2011, 29(21): 31-35. DOI: 10.3981/j.issn.1000-7857.2011.21.004
作者姓名:孟敬  刘寿强
作者单位:1. 广东交通职业技术学院,广州 510650;2. 华南师范大学物理与电信工程学院,广州 510006;3. 华南理工大学计算机科学与工程学院,广州 510040
基金项目:广东省交通科技项目(2007-27); 国家自然科学基金项目(61072028)
摘    要: 随着Web技术的飞速发展,海量数据的管理与搜索变得尤为重要。海量信息的异构性和动态性特点要求信息集成需要Web爬虫来自动获取这些页面,以便进一步处理数据。而一些企业内部的资料既要保密又要供不同的内部职员使用,这种既开放又保守的特点成为企业发展的瓶颈。为了帮助用户完成这样的任务,本文改变传统的资源共享形式,为企业提供了一个高效便利保密的资源共享管理平台——企业搜索引擎(ESE),提出了一种基于主题式爬虫的Deep Web页面的企业搜索引擎(ESE)的和基于开源Java Lucene的索引企业搜索系统设计与实现方法。通过在电信行业Deep Web站点部署实验,经运行检验,结果达到了设计指标要求,为电信行业搜索发挥了作用。并对搜索的精度、速度,以及垃圾网页反舞弊等方面研究进行了展望。

关 键 词:主题式爬虫  企业搜索引擎  Deep Web搜索技术  电信  设计与实施

Research and Design of Topical Crawl Module Based on Deep Web Search Technology
MENG Jing ,LIU Shouqiang , .Guangdong Communication Polytechnic,Guangzhou ,China .School of Physics , Telecommunication Engineering,South China Normal University,Guangzhou ,China .School of Computer Science , Engineering,South China University of Technology,Guangzhou ,China. Research and Design of Topical Crawl Module Based on Deep Web Search Technology[J]. Science & Technology Review, 2011, 29(21): 31-35. DOI: 10.3981/j.issn.1000-7857.2011.21.004
Authors:MENG Jing   LIU Shouqiang    .Guangdong Communication Polytechnic  Guangzhou   China .School of Physics & Telecommunication Engineering  South China Normal University  Guangzhou   China .School of Computer Science & Engineering  South China University of Technology  Guangzhou   China
Affiliation:1. Guangdong Communication Polytechnic, Guangzhou 510650, China;2. School of Physics & Telecommunication Engineering, South China Normal University, Guangzhou 510006, China;3. School of Computer Science & Engineering, South China University of Technology, Guangzhou 510040, China
Abstract:As the web rapidly grows,massive data management and search becomes particularly important.Heterogeneous mass information and dynamic characteristics of information integration require Web crawlers to automatically access these Web pages in order to further process the data,the internal confidential information of enterprises must be only used by different internal staffs,the openness and conservative features become the major bottleneck for the enterprise development.To help out this task,some forms of the...
Keywords:topical crawl  Enterprise Search Engine  Deep Web Search technology  telecommunications  design and implementation  
本文献已被 CNKI 等数据库收录!
点击此处可从《科技导报(北京)》浏览原始摘要信息
点击此处可从《科技导报(北京)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号