面向大学领域的聚焦爬虫设计与实现期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

面向大学领域的聚焦爬虫设计与实现

作者姓名：	甘国华刘梦赤胡婕

作者单位：	武汉大学计算机学院软件工程国家重点实验室;湖北大学计算机与信息工程学院

基金项目：	国家自然科学基金(61202100;61272110);国家留学基金([2013]3018);软件工程国家重点实验室开放基金(SKLSE2012-09-20)

摘要：	如何从海量的Web资源中获取有用的信息是Web研究领域的重要研究内容。针对特定领域信息的获取,目前主要采用聚焦爬虫策略。该策略只爬取与主题相关的页面,忽略不相关页面。但目前的聚焦爬虫技术在爬行效率和页面质量两个方面仍存在一定的不足。因此,本文主要从这两个方面进行改进,并在此基础上设计和实现了一个面向大学领域的聚焦爬虫系统。该系统采用基于改进的Context Graphs方法的搜索策略和基于支持向量机(SVM)的目标页面分类器方法获取有用的资源。实验结果表明该系统在爬虫结果的收益率和准确率上分别提高了10%和8%。
关键词：	特定领域聚焦爬虫大学领域 Context Graphs 支持向量机
本文献已被 CNKI 等数据库收录！