首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于分块的网页主题文本抽取
引用本文:任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报(自然科学版),2009,27(1).
作者姓名:任玉  樊勇  郑家恒
作者单位:山西大学,计算机与信息技术学院,计算智能与中文信息处理教育部重点实验室,山西,太原,030006
摘    要:根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.

关 键 词:HTML  标签  网页分块  内容特征  信息抽取

Extraction of Topical Text from Web Pages Based on Page Segmentation
REN Yu,FAN Yong,ZHENG Jia-heng.Extraction of Topical Text from Web Pages Based on Page Segmentation[J].Journal of Guangxi Normal University(Natural Science Edition),2009,27(1).
Authors:REN Yu  FAN Yong  ZHENG Jia-heng
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号