首页 | 本学科首页   官方微博 | 高级检索  
     

Web信息采集中页面分块技术的研究
作者姓名:徐薇
作者单位:中南民族大学,计算与实验中心,湖北,武汉,430074
摘    要:本文提出了一个基于网页分块的信息采集系统模型。在页面分析阶段,引入了改进的基于视觉的页面分块方法,这是一种自顶向下的、标签树独立的方法,其目的是检测出Web内容结构,实验结果令人满意。基于分块后的页面,利用一个经验交互式的噪音去除算法Page_CN,定义页面的噪音区间,去除噪音区域,得到更加明确的主题区域。

关 键 词:信息采集  网页分块  噪音
文章编号:1009-5160(2007)-0043-03
收稿时间:2007-02-28
修稿时间:2007-02-28
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号