模板化网页主题信息的提取方法 Topic information extraction from template web pages期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

模板化网页主题信息的提取方法

引用本文：	欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报(自然科学版),2005,45(9):1743-1747.

作者姓名：	欧健文董守斌蔡斌

作者单位：	华南理工大学,广东省计算机网络重点实验室,广州,510640

基金项目：	中国教育科研网格计划ChinaGrid资助项目(CG2003-CG005)

摘要：	为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法.该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取.对国内2 588个新闻网页进行了检测.实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5%.将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50%,检索的速度和精确度也得到提高.
关键词：	万维网网页信息提取模板搜索引擎
文章编号：	1000-0054(2005)S1-1743-05
修稿时间：	2005年5月20日
Topic information extraction from template web pages

OU Jianwen,DONG Shoubin,CAI Bin.Topic information extraction from template web pages[J].Journal of Tsinghua University(Science and Technology),2005,45(9):1743-1747.

Authors:	OU Jianwen DONG Shoubin CAI Bin

Abstract:

Keywords:
本文献已被万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏