首页 | 本学科首页   官方微博 | 高级检索  
     检索      

搜索引擎Google的体系结构及其核心技术研究
引用本文:王德峰,李东.搜索引擎Google的体系结构及其核心技术研究[J].哈尔滨商业大学学报(自然科学版),2006,22(1):84-87.
作者姓名:王德峰  李东
作者单位:1. 哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001;哈尔滨商业大学,计算机与信息工程学院,黑龙江,哈尔滨,150028
2. 哈尔滨工业大学,计算机科学与技术学院,黑龙江,哈尔滨,150001
摘    要:Google采用了并行,索引桶,数据压缩,PageRank算法等的技术,建立了复杂的体系结构,包括网络爬行机器人crawler、知识库Repository、索引系统(包括索引器indexer,桶barrels,文件索引等)、排序器Sorter和搜索器Searcher五个部分.Google的rank系统综合了词频,类型,相邻度,网页重要性等因素.其中最值得一提的是计算网页重要性的PageRank算法,它把文献检索的引用理论应用到Web中,即一个网页有很多网页指向它,或者一些重要的网页指向它,则这个网页很重要.PageRank算法大大提高了检索效率.

关 键 词:搜索引擎  PageRank  Google  网络爬行机器人  排序
文章编号:1672-0946(2006)01-0084-04
修稿时间:2005年9月21日

Study on architecture and core technology of search engine Google
WANG De-feng,LI Dong.Study on architecture and core technology of search engine Google[J].Journal of Harbin University of Commerce :Natural Sciences Edition,2006,22(1):84-87.
Authors:WANG De-feng  LI Dong
Abstract:It is hard to retrieve information on the Internet,but search engine make it easy.The data on the Internet is so large that the retrieve information technology on the normal database can not meet the requirement.To resolve the problem,some technologies,such as parallel processing,barrel sorting,compression and PageRank,are applied to Google.So it is a complicated system which have five parts,crawler,Repository,index system(including indexer,barrels,file index and so on),sorter,searcher.The rank system of Google considers both count-weight,type weight,prox-weight,and PageRank which weight the importance of a page.Applied Academic citation literature to the Web,a page can have a high PageRank if there are many pages that point to it,or if there are some pages that point to it and have a high PageRank.Applying the PageRank,the search technology is improved effectively.
Keywords:search engine  PageRank  Google  crawler  sort
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号