首页 | 本学科首页   官方微博 | 高级检索  
     

基于模式匹配的网页净化方法
引用本文:曾蒸,马燕,
. 基于模式匹配的网页净化方法
[J]. 重庆师范大学学报(自然科学版), 2015, 0(6): 103
作者姓名:曾蒸  马燕  
作者单位:重庆师范大学 传媒学院/新媒体学院,重庆 401331;重庆师范大学 计算机与信息科学学院,重庆 401331
摘    要:新闻网页主要由大量文字描述构成,相比网页其他区域的噪音内容,其主题内容含有大段连贯的文字。根据这一特点提出一种基于模式匹配的网页净化方法,即在网页源代码中匹配最长文字字符串,从而准确定位主题内容源代码在网页源代码中位置,实现网页净化。本方法可去除来自不同网站网页的噪音内容,无需事先训练数据集来生成模板,不需要生成网页DOM树。对同构、异构和不符合XML规范的网页净化,试验证明效果理想且性能稳定。


关 键 词:网页噪音  网页净化  信息提取

Eliminating Noisy Information in Web Pages Based on Pattern Matching
ZENG Zheng,MA Yan
. Eliminating Noisy Information in Web Pages Based on Pattern Matching
[J]. Journal of Chongqing Normal University:Natural Science Edition, 2015, 0(6): 103
Authors:ZENG Zheng  MA Yan
Abstract:
Keywords:
点击此处可从《重庆师范大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《重庆师范大学学报(自然科学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号