基于标签密度的自适应正文提取方法 Adaptive Approach for Content Extraction Based on Tag Density期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于标签密度的自适应正文提取方法

引用本文：	孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报(理学版),2009,41(1).

作者姓名：	孙皓董守斌

作者单位：	华南理工大学广东省计算机网络重点实验室,广州,510640

基金项目：	国家高技术研究发展计划(863计划)

摘要：	提出一种新颖的网页去噪方法,利用标签和锚文本在网页中不同部分的分布差异来判断是否为正文信息,同时根据正文部分的不同区域标签的分布波动,算法自我学习并调整相关阈值,可有效去除网页噪音.该方法简单易行,网页正文信息提取及网页分类的实验均表明了该方法是有效的.
关键词：	标签密度锚文本密度正文信息网页去噪
Adaptive Approach for Content Extraction Based on Tag Density

SUN Hao , DONG Shou-bin.Adaptive Approach for Content Extraction Based on Tag Density[J].Journal of Zhengzhou University:Natural Science Edition,2009,41(1).

Authors:	SUN Hao DONG Shou-bin

Abstract:

Keywords:
本文献已被万方数据等数据库收录！