首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于网页分块自定义信息提取的Web信息采集器设计
引用本文:苏炜,李正权,黎有.基于网页分块自定义信息提取的Web信息采集器设计[J].广东科技,2010,19(16):41-45.
作者姓名:苏炜  李正权  黎有
作者单位:广东省计算中心
摘    要:通过分析现有网络信息采集软件的不足,根据网页文本信息的结构和内容特征,提出一种基于网页文本信息或富文本信息的优化提取策略。通过将网页文档表示为DOM标签树的形式,把信息按Web页面的标签进行内容块的分割,结合XPath定位的方式,利用可视化的工具提取网页中有用信息,实现自动定期采集并按自定义表结构存储。

关 键 词:信息采集  信息提取  XPath定位  信息降噪  结构化存储
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号