基于网页分块自定义信息提取的Web信息采集器设计 |
| |
引用本文: | 苏炜,李正权,黎有.基于网页分块自定义信息提取的Web信息采集器设计[J].广东科技,2010,19(16):41-45. |
| |
作者姓名: | 苏炜 李正权 黎有 |
| |
作者单位: | 广东省计算中心 |
| |
摘 要: | 通过分析现有网络信息采集软件的不足,根据网页文本信息的结构和内容特征,提出一种基于网页文本信息或富文本信息的优化提取策略。通过将网页文档表示为DOM标签树的形式,把信息按Web页面的标签进行内容块的分割,结合XPath定位的方式,利用可视化的工具提取网页中有用信息,实现自动定期采集并按自定义表结构存储。
|
关 键 词: | 信息采集 信息提取 XPath定位 信息降噪 结构化存储 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|