首页 | 本学科首页   官方微博 | 高级检索  
     

面向大学领域的聚焦爬虫设计与实现
作者姓名:甘国华  刘梦赤  胡婕
作者单位:武汉大学计算机学院软件工程国家重点实验室;湖北大学计算机与信息工程学院
基金项目:国家自然科学基金(61202100;61272110);国家留学基金([2013]3018);软件工程国家重点实验室开放基金(SKLSE2012-09-20)
摘    要:
如何从海量的Web资源中获取有用的信息是Web研究领域的重要研究内容。针对特定领域信息的获取,目前主要采用聚焦爬虫策略。该策略只爬取与主题相关的页面,忽略不相关页面。但目前的聚焦爬虫技术在爬行效率和页面质量两个方面仍存在一定的不足。因此,本文主要从这两个方面进行改进,并在此基础上设计和实现了一个面向大学领域的聚焦爬虫系统。该系统采用基于改进的Context Graphs方法的搜索策略和基于支持向量机(SVM)的目标页面分类器方法获取有用的资源。实验结果表明该系统在爬虫结果的收益率和准确率上分别提高了10%和8%。

关 键 词:特定领域  聚焦爬虫  大学领域  Context Graphs  支持向量机
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号