首页 | 本学科首页   官方微博 | 高级检索  
     检索      

Web数据的深度定向采集
引用本文:夏天.Web数据的深度定向采集[J].山东大学学报(理学版),2011,46(5):34-38.
作者姓名:夏天
作者单位:数据工程与知识工程教育部重点实验室,北京100872;中国人民大学信息资源管理学院,北京100872
基金项目:国家社会科学基金资助项目
摘    要:通过模拟人类访问网页的浏览行为,提取定向爬行子页面集限定爬虫的爬行方向;引入页面继承关系,并通过爬行条目的属性继承实现跨页面复合对象的数据关联关系;设计实现了支持深度定向采集的通用爬行流程。面向天涯热帖的舆情采集实验结果表明:该方法可以在整体处理流程不变的前提下,实现复杂对象的数据采集,并具有较高的采集效率。

关 键 词:深度采集  定向网络爬虫  公共网络舆情

Deep directional collection of Web data
XIA Tian.Deep directional collection of Web data[J].Journal of Shandong University,2011,46(5):34-38.
Authors:XIA Tian
Institution:XIA Tian1,2 (1.Key Laboratory of Data Engineering and Knowledge Engineering,MOE,Beijing 100872,China,2.School of Information Resource Management,Renmin University of China,China)
Abstract:
Keywords:deep collection  directional web crawler  public web opinion  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号