首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于标签密度的自适应正文提取方法
引用本文:孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报(理学版),2009,41(1).
作者姓名:孙皓  董守斌
作者单位:华南理工大学广东省计算机网络重点实验室,广州,510640
基金项目:国家高技术研究发展计划(863计划)
摘    要:提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.

关 键 词:标签密度  锚文本密度  正文信息  网页去噪

Adaptive Approach for Content Extraction Based on Tag Density
SUN Hao , DONG Shou-bin.Adaptive Approach for Content Extraction Based on Tag Density[J].Journal of Zhengzhou University:Natural Science Edition,2009,41(1).
Authors:SUN Hao  DONG Shou-bin
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号