首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于统计的网页净化模板生成算法
引用本文:胡飞.基于统计的网页净化模板生成算法[J].科学技术与工程,2013,13(4).
作者姓名:胡飞
作者单位:重庆第二师范学院
基金项目:重庆教育学院研究项目“基于WEB的远程内容调用(WEB JS)技术研究”(KY201176C)
摘    要:同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST;然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成该站点的重要单边子树SPUST。这个SPUST就是该站点的网页净化模板。

关 键 词:网页净化,信息提取,单边子树
收稿时间:9/12/2012 1:10:31 PM
修稿时间:9/18/2012 2:27:44 PM

A Template Generation Algorithm for Reducing Web Noise Based on Statistics
Hu Fei.A Template Generation Algorithm for Reducing Web Noise Based on Statistics[J].Science Technology and Engineering,2013,13(4).
Authors:Hu Fei
Abstract:
Keywords:Web Page Purification  Information Extraction  Unilateral Subtree
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号