基于网页分块自定义信息提取的Web信息采集器设计期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于网页分块自定义信息提取的Web信息采集器设计

引用本文：	苏炜,李正权,黎有.基于网页分块自定义信息提取的Web信息采集器设计[J].广东科技,2010,19(16):41-45.

作者姓名：	苏炜李正权黎有

作者单位：	广东省计算中心

摘要：	通过分析现有网络信息采集软件的不足,根据网页文本信息的结构和内容特征,提出一种基于网页文本信息或富文本信息的优化提取策略。通过将网页文档表示为DOM标签树的形式,把信息按Web页面的标签进行内容块的分割,结合XPath定位的方式,利用可视化的工具提取网页中有用信息,实现自动定期采集并按自定义表结构存储。
关键词：	信息采集信息提取 XPath定位信息降噪结构化存储
本文献已被 CNKI 维普万方数据等数据库收录！