首页 | 本学科首页   官方微博 | 高级检索  
     

基于本体的HTML表格识别技术的研究
引用本文:袁鸿雁. 基于本体的HTML表格识别技术的研究[J]. 长春工程学院学报(自然科学版), 2010, 11(1): 108-110. DOI: 10.3969/j.issn.1009-8984.2010.01.030
作者姓名:袁鸿雁
作者单位:沈阳职业技术学院,计算机系,沈阳,110045
摘    要:由于HTML只描述数据怎样显示而不描述数据的内容,因此识别HTML表格并抽取其数据是Web信息抽取领域中重要的研究课题之一,针对现在包装器技术的不足提出了一种新的基于领域本体的HTML表格结构识别技术,为构造HTML表格信息抽取系统打下基础。

关 键 词:HTML表格  本体  DOM树  启发式规则

Study on structure recognization technique for ontology-based HTML tables
YUAN Hong-yan. Study on structure recognization technique for ontology-based HTML tables[J]. Journal of Changchun Institute of Technology(Natural Science Edition), 2010, 11(1): 108-110. DOI: 10.3969/j.issn.1009-8984.2010.01.030
Authors:YUAN Hong-yan
Affiliation:Dept.of Computer Science;ShenyangPolytechnic College;Shenyang 110045;China
Abstract:HTML focuses on data presentation rather than data contents.As a result,how to understand the HTML tables on the internet and collect its data integration becomes one of the most important research subjects in the field of web information extraction.This paper,aiming at the current lack of wrapper technology,presents a new domain ontology-based HTML table structure recognition technology,and lays a solid foundation for constructing HTML table information extraction system
Keywords:HTML tables  ontology  DOM Tree  heuristic rule  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号