HTML数据内容的抽取与集成 Data Extraction and Integration from HTML Documents期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

HTML数据内容的抽取与集成

引用本文：	欧建雄,张礼平.HTML数据内容的抽取与集成[J].华东理工大学学报(自然科学版),2003,29(6):613-616.

作者姓名：	欧建雄张礼平

作者单位：	华东理工大学计算机科学与工程系,上海,200237

摘要：	在XML基础上，利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库，净化HTML文档，借助DOM生成树对HTML元素结构做进一步分析，最后通过XSL、XPATH等自动提取转换。
关键词：	XML HTML 数据抽取
文章编号：	1006-3080(2003)06-0613-04
修稿时间：	2002年11月6日
Data Extraction and Integration from HTML Documents

Abstract:

Keywords:	XML HTML data extraction
本文献已被 CNKI 维普万方数据等数据库收录！