HTML数据内容的抽取与集成 |
| |
引用本文: | 欧建雄,张礼平.HTML数据内容的抽取与集成[J].华东理工大学学报(自然科学版),2003,29(6):613-616. |
| |
作者姓名: | 欧建雄 张礼平 |
| |
作者单位: | 华东理工大学计算机科学与工程系,上海,200237 |
| |
摘 要: | 在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。
|
关 键 词: | XML HTML 数据抽取 |
文章编号: | 1006-3080(2003)06-0613-04 |
修稿时间: | 2002年11月6日 |
Data Extraction and Integration from HTML Documents |
| |
Abstract: | |
| |
Keywords: | XML HTML data extraction |
本文献已被 CNKI 维普 万方数据 等数据库收录! |