Web信息采集中页面分块技术的研究 |
| |
作者姓名: | 徐薇 |
| |
作者单位: | 中南民族大学,计算与实验中心,湖北,武汉,430074 |
| |
摘 要: | 本文提出了一个基于网页分块的信息采集系统模型。在页面分析阶段,引入了改进的基于视觉的页面分块方法,这是一种自顶向下的、标签树独立的方法,其目的是检测出Web内容结构,实验结果令人满意。基于分块后的页面,利用一个经验交互式的噪音去除算法Page_CN,定义页面的噪音区间,去除噪音区域,得到更加明确的主题区域。
|
关 键 词: | 信息采集 网页分块 噪音 |
文章编号: | 1009-5160(2007)-0043-03 |
收稿时间: | 2007-02-28 |
修稿时间: | 2007-02-28 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|