首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于局部最优标签树的网页净化方法
引用本文:胡飞.基于局部最优标签树的网页净化方法[J].科学技术与工程,2012,12(35):9556-9561.
作者姓名:胡飞
作者单位:1. 重庆第二师范学院网络中心,重庆,400065
2. 重庆第二师范学院数学与信息工程系,重庆,400065
基金项目:重庆第二师范学院研究项目(批准号:KY201176C;批准号:KY201175C)
摘    要:新闻网页里面包含大量文字分段标签,相比网页其它区域的噪音内容,其主题内容区域的文字分段标签较多。根据这一特点引入局部最优标签树搜索算法。通过搜寻同级节点中分段标签最多的容器节点,消除其它容器节点,从而实现网页净化方法。实验证明方法实现简单、净化效果明显,特别是对新闻类主题文字网页净化效果显著。

关 键 词:网页净化  信息提取  HTML标签  局部最优  网页噪音
收稿时间:8/14/2012 9:11:33 AM
修稿时间:8/30/2012 5:49:57 PM

An Approach to Purify Web Pages based on the Local Optimal DOM Tree
Hu Fei.An Approach to Purify Web Pages based on the Local Optimal DOM Tree[J].Science Technology and Engineering,2012,12(35):9556-9561.
Authors:Hu Fei
Institution:1(Network Management Center,Chongqing University of Education1,Dept.of Math.& Info.,Chongqing University of Education2,Chongqing 400065,P.R.China)
Abstract:A news web page has a lot of paragraph tags, most of which exist in topic zones, and a little in noise zones. According to this feature, we propose a novel purification approach based on the local optimal DOM tree algorithm. Through searching sibling nodes for the one with the most number of paragraph tags, eliminating the other nodes, we get a purified DOM tree. That is the tree for the purified web page. This approach is simple and significant, especially to the topic text web pages.
Keywords:Web Page Purification  Information Extraction  HTML tags  Local Optimal  Web Page Noise
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《科学技术与工程》浏览原始摘要信息
点击此处可从《科学技术与工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号