首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于扩展标记树的网页正文抽取
引用本文:夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报(自然科学版),2011,29(1):133-137.
作者姓名:夏天
作者单位:数据工程与知识工程教育部重点实验室,北京,100872;中国人民大学,信息资源管理学院,北京,100872
基金项目:国家自然科学基金,教育部科学技术研究重点项目,中国人民大学科学研究基金
摘    要:本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取.实验结果表明:该...

关 键 词:网页正文抽取  扩展标记树  近邻优先遍历

Content Extraction of Web Page Based on Extended Label Tree
XIA Tian.Content Extraction of Web Page Based on Extended Label Tree[J].Journal of Guangxi Normal University(Natural Science Edition),2011,29(1):133-137.
Authors:XIA Tian
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号