首页 | 本学科首页   官方微博 | 高级检索  
     检索      

HTML数据内容的抽取与集成
引用本文:欧建雄,张礼平.HTML数据内容的抽取与集成[J].华东理工大学学报(自然科学版),2003,29(6):613-616.
作者姓名:欧建雄  张礼平
作者单位:华东理工大学计算机科学与工程系,上海,200237
摘    要:在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。

关 键 词:XML  HTML  数据抽取
文章编号:1006-3080(2003)06-0613-04
修稿时间:2002年11月6日

Data Extraction and Integration from HTML Documents
Abstract:
Keywords:XML  HTML  data extraction  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号