基于扩展标记树的网页正文抽取 Content Extraction of Web Page Based on Extended Label Tree期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于扩展标记树的网页正文抽取

引用本文：	夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报(自然科学版),2011,29(1):133-137.

作者姓名：	夏天

作者单位：	数据工程与知识工程教育部重点实验室,北京,100872;中国人民大学,信息资源管理学院,北京,100872

基金项目：	国家自然科学基金，教育部科学技术研究重点项目，中国人民大学科学研究基金

摘要：	本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取.实验结果表明:该...
关键词：	网页正文抽取扩展标记树近邻优先遍历
Content Extraction of Web Page Based on Extended Label Tree

XIA Tian.Content Extraction of Web Page Based on Extended Label Tree[J].Journal of Guangxi Normal University(Natural Science Edition),2011,29(1):133-137.

Authors:	XIA Tian

Abstract:

Keywords:
本文献已被万方数据等数据库收录！