基于分块的网页主题文本抽取 Extraction of Topical Text from Web Pages Based on Page Segmentation期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于分块的网页主题文本抽取

引用本文：	任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报(自然科学版),2009,27(1).

作者姓名：	任玉樊勇郑家恒

作者单位：	山西大学,计算机与信息技术学院,计算智能与中文信息处理教育部重点实验室,山西,太原,030006

摘要：	根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.
关键词：	HTML 标签网页分块内容特征信息抽取
Extraction of Topical Text from Web Pages Based on Page Segmentation

REN Yu,FAN Yong,ZHENG Jia-heng.Extraction of Topical Text from Web Pages Based on Page Segmentation[J].Journal of Guangxi Normal University(Natural Science Edition),2009,27(1).

Authors:	REN Yu FAN Yong ZHENG Jia-heng

Abstract:

Keywords:
本文献已被维普万方数据等数据库收录！