首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
讨论了XML语言及DOM文档解析技术,通过DOM文档解析技术可以灵活地操纵XML文档中的各个部分,使得应用程序能够真正实现独立与跨平台的目标。在VC平台下,通过DOM技术实现了对XML文档的读取、增加结点的操作。  相似文献   

2.
面对飞速发展的信息时代,WEB数据的挖掘日益重要,而传统的搜索引擎难以胜任对数据的挖掘处理。基于XML良好的结构性和层次性,提出了利用DOM树进行WEB挖掘的方法。首先利用Tidy工具库将WEB数据转换成良好结构的XML文件,简化生成DOM树,然后通过遍历解析XML的DOM树结构,提取需要的WEB信息,实现对WEB数据挖掘。实验表明,该方法能够方便地对数据进行结构化存储和信息处理。  相似文献   

3.
王昆明 《科技资讯》2009,(10):15-15
文章介绍了XML解析的主要标准DOM和SAX,并在JAXP中分别调用两种方法实现XML文档的解析。  相似文献   

4.
王站立 《科技信息》2009,(17):61-61
扩展标记语言XML是一种简单的数据存储语言,随着XML越来起广泛地被采用,高效解析XML文档也变得越来越重要。Sun公司提供了JAXP接口来方便解析XML文档。本文讨论了如何使用此接口进行DOM解析XML文档。  相似文献   

5.
XML应用日益广泛,正确高效地解析XML文件的数据信息日显重要。Java解析XML的方法有多种,主流方法有DOM、SAX、JDOM、DOM4J。本文分析了这些方法的优劣.给出了最基本的解析XIVIL的示例Java程序。在实际应用中,可以根据各种解析方法的特点选择。  相似文献   

6.
Domino和XML结构的相似性使XML文档可以方便有效地存储在Domino表单、域、页面、文件系统中,不需存储的XML数据可以在系统内存中处理.文章采用两种方法实现了XML文档在Domino中的存储:把XML原始数据存储在Notes域中,生成DOM(Document Object Model)树,通过遍历整个DOM树,按节点创建多个Notes文档;或者把XML原始文档调入系统内存,在内存中解析成DOM树,并只对包含所需数据的DOM树节点的子集进行处理,创建Notes文档.  相似文献   

7.
XML数据聚簇技术研究   总被引:1,自引:1,他引:0  
在分析DOM标准中数据访问的特点后,提出了两种XML数据聚簇存储方法:基于父子关系的XML数据聚簇存储方法和基于兄弟关系的XML数据聚簇存储方法·针对两种典型树遍历操作,分析了两种XML聚簇存储方法发生I/O的概率,给出了两种DOM树遍历路径表达式查询算法,即深度优先查询算法和宽度优先查询算法·基于XMark和XMach测试基准进行了性能评价·  相似文献   

8.
基于XML的站内搜索引擎的实现研究   总被引:4,自引:0,他引:4  
分析了传统基于HTML的站内搜索引擎的不足和目前XML技术的特点,提出了一种利用XML文档保存查询信息、通过DOM解析文档、采用Xpath实现检索的站内搜索引擎的实现模式,并具体阐述了这种基于XML的站内搜索引擎的技术实现方式。  相似文献   

9.
XML是一种开放的、以字为基础的标记语言,它以一种简单并标准的传输方式存储原始数据,以Visual Basic为例,阐述了什么是DOM,以及如何通过件对象模型(DOM)读取XML件,并浏览其内容。  相似文献   

10.
一种扩展置标语言解析器的设计与实现   总被引:2,自引:1,他引:2  
为了扩展置标语言(XML)文档中载有的数据进行解析,设计并实现了一种通用的XML解析器--XMLP,该解析器能对XML文档进行解析、验证和串行化。其中,解析功能实现了文档对象模型(DOM)解析和基于XML的简单应用编程接口(SAX)解析。为了对DOM解析进行优化,提出并实现了占用内存资源较少的延迟展开的方法;验证功能实现了对文档类型定义(DTD)和模式(Schema)的验证;串行化功能分别实现了DOM串行化和SAX串行化。  相似文献   

11.
基于DOM的XML文档支持系统   总被引:11,自引:0,他引:11  
作为SGML的子集,元标记语言XML及其相关技术正得到越来越广泛的应用,文档对象模型是一种平台无关、语言无关的标准接口,是XML、HTML、文档互操作的基础,首先论述了XML的应用前景和应用现状,然后提出了基于DOM的XML文档支持系统,系统为用户提供一套组件,用来完成XML文档的生成、表现、文档转换等工作,系统同时提供DOM1.0所定义的对外功能接口以支持Web的互操作。  相似文献   

12.
基于Hole-Filler模型的XML流数据剪切分片技术   总被引:2,自引:0,他引:2  
对基于Hole-Filler模型的XML流数据剪切分片问题,首先利用XML文档的Document Object Model(DOM)结构,根据节点扇出度提出了基于DOM的XML流数据剪切分片策略及其算法.然后,在此基础上,对标签结构进行剪切以确定文档的剪切点,提出了基于标签的XML流数据剪切分片算法,有效地减少了节点扇出度与阈值的比较次数.最后,提出了优化的剪切策略,根据阈值与节点扇出度的比值对XML子树加以整合,以减少碎片的产生.实验结果表明,XML剪切算法在剪切时间、分片粒度等方面都有较好的性能.  相似文献   

13.
XML文档解析技术研究   总被引:1,自引:0,他引:1  
对两种XML文档解析技术作了详细介绍,并对这两种技术进行了比较.  相似文献   

14.
陈远斌 《应用科技》2009,36(8):52-55
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果.  相似文献   

15.
基于GML的GIS空间要素描述与应用研究   总被引:9,自引:0,他引:9  
以房屋土地地理信息系统 (GIS)中的地籍图形数据为例 ,探讨了基于地理标识语言 (GML)规范的空间要素描述 ,包括其数据描述结构和GML文档 ,并基于JAVA语言、文档对象模型和XML语言接口协议 (SAX)实现了一个基于GML的地籍GIS查询系统 ,验证了提出的基于GML规范的GIS空间数据描述的可行性  相似文献   

16.
基于DOM树及行文本统计去噪的网页文本抽取技术   总被引:1,自引:0,他引:1  
首先对网页源码文本统一编码转为UTF格式,然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除,然后依据中文标点符号统计方法提取网页正文内容,并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息,最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2 000篇网页进行实验,结果表明本文提出的方法具有较高的抽取准确率,并具有很好的通用性和实现简单的特点,适用于针对互联网中不同网站新闻文本信息的自动采集。  相似文献   

17.
XML ,作为HTML语言的一种补充 ,具有如可扩展性、简单性、开放性、互操作性、支持多国语言等有一系列特性 ,这就使得它必将成为新一代WWW环境的主要工具。但由于XML文件只是文本文件 ,它本身并不带有任何的处理数据能力 ,因此必须辅以其它的工具来应用它。针对目前XML应用技术现状 ,本文提出了利用DOM (或SAX)技术一次性解析文档后 ,将XML文档中的层次数据提取出来通过继承Java集合类来自定义相关类并进一步处理XML中的数据  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号