首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
Java XML与面向Web的智能数据抽取   总被引:4,自引:1,他引:4  
采用标准Web技术——HTML,XML和Java,开发一种基于Web用Java把Web数据转换为XML的数据挖掘方法.该方法标识数据源并把它映射成XHTML,根据一定的相关关系查找数据内的引用点并进行智能数据抽取,将数据映射成XML.这种数据抽取方法比较简单,通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚点,可以较为方便地建立一个强壮的数据抽取系统.  相似文献   

2.
一种基于XML的Web数据抽取的实现   总被引:2,自引:0,他引:2  
Web数据挖掘的研究越来越广泛,对Web数据的抽取则是研究的前提和必要的步骤.而当前Web信息大多数都是HTML格式的,存在很多缺陷.针对目前研究,简单地介绍了XML及它的特点,并且对HTMLand XML从开放性、可操作性等几个方面做了比较,显示出了XML的优越性.最后利用一个实例简述了基于XML的数据抽取过程.  相似文献   

3.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

4.
色菲  王佳  潘超 《科技信息》2007,(34):75-75,52
互联网已成为人们获得信息、取得服务的重要渠道之一。Web上的数据最大特点就是半结构化。由于目前网络上信息的主要组织形式是HTML格式,而HTML标记语言只描述数据的表现形式,不描述数据含义及结构。因此,计算机无法自动识别。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。因此本文分析了对由XML表示的数据进行数据抽取的过程。  相似文献   

5.
HTML数据内容的抽取与集成   总被引:11,自引:0,他引:11  
在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。  相似文献   

6.
陈远斌 《应用科技》2009,36(8):52-55
Web数据抽取是当前的一个研究热点,目前还没有统一有效的抽取方法.在此提出一种研究思路,首先将Web页面的DOM树进行扩展,添加视觉特征和链接特征.然后计算多个相似页面的扩展DOM树中节点和子树的新颖度,接着由新颖度识别对象数据并且依据数据项角色抽取出数据,最后将对象数据保存为XML文档.通过实验分析,验证了这个方法具有较好的抽取效果.  相似文献   

7.
Java和XML实现异构数据库环境下的数据抽取   总被引:1,自引:0,他引:1  
从Java、XML等方面入手,利用Java的跨平台特性和XML信息交流的标准平台特性,在数据挖掘和开发基于Web/Server的统一信息平台时,可便利地进行数据抽取工作,提出一个基于异构数据库环境数据抽取的系统结构  相似文献   

8.
基于DOM的Web信息抽取方法研究   总被引:1,自引:0,他引:1  
以往基于DOM的Web信息抽取方法在信息抽取过程中存在如需要较多样本集、适应性较差等问题,为解决Web上的信息在抽取中存在的问题,本文提出了一种在原有基于DOM的Web信息抽取方法的基础上引入竞争分类方法进行信息抽取。  相似文献   

9.
一种基于XML的Web数据挖掘技术   总被引:6,自引:0,他引:6  
阐述了一种基于XML的数据抽取技术,并示例如何将该技术应用于Web信息的挖掘,通过对实例的剖析,提出了有关技术人员如何通过该数据挖掘技术拥有一个维护成本低廉而且可靠的数据抽取系统,从而快速便捷地获取所需的信息。  相似文献   

10.
基于XML的多数据库系统集成数据模型   总被引:2,自引:0,他引:2  
随着网络信息的大量积累,如何充分利用网络资源已成为一个亟待解决的问题,将数据库技术应用到Web数据中是一种较好的解决办法,而其中则牵涉到Web数据的结构抽取以及采用什么形式描述这种结构。基于上述情况,提出了如何将一个典型的半结构化数据(HTML网页)经过模式抽取并转换为XIDM描述形式的方法,从而实现了自行研制的多数据库系统Panorama与文件系统的集成。  相似文献   

11.
基于XML与Java凭借跨平台的优势及其互补性的特点,为下一代Web应用开发的基础数据描述格式与主要开发环境,针对Java处理XML数据的几种接口的缺陷,研究了通过XMLSchema到Java类的映射,实现基于数据绑定的Java应用对XML数据的操作,并用典型实例给予验证.该方法较SAX及DOM具有能够双向数据操作,对系统资源要求低的特点,特别适合XML文档表示配置信息的情况.  相似文献   

12.
为实现简捷的信息抽取和信息利用,提出一种采用树型结构实现Web数据到XML文档的转换算法.使用基于树型结构的类型定义和信息抽取方法,可有效将Web文档中的数据抽取出来并表示为XML格式的文档,形成可用的XML数据源,便于其他应用程序使用结果数据,为实现Web中的信息共享与数据交换提供便利条件.  相似文献   

13.
14.
WEB数据挖掘研究与探讨   总被引:2,自引:0,他引:2  
随着WWW迅猛发展,WWW上的信息量不断增加,如何在这些信息中找到用户真正需要的内容,成了数据组织和web相关领域的专家学者关注的焦点.为了解决这个问题,把数据挖掘的理论和技术应用于WWW,出现了一个新的研究领域-Web数据挖掘.主要介绍了Web数据挖掘的原理、应用、实现以及它的最近发展情况.  相似文献   

15.
XML数据库技术在IETM中的应用研究   总被引:6,自引:0,他引:6  
系统分析了XML数据库技术在IETM中的应用,重点对基于XML的IETM设计流程和数据交换技术进行了讨论,并结合,NET程序开发了基于Web的IETM显示系统,为新形势下交互式电子技术手册的开发提供了新思路,有利于装备保障信息化建设的发展。  相似文献   

16.
基于XML的Web信息系统中数据访问性能优化方法   总被引:3,自引:2,他引:3  
目的利用XML技术实现W eb信息系统中数据访问的性能优化。方法采用可扩展标记语言XML及基于XML的XQuery技术提升性能。结果以实际W eb信息系统为测试用例对基于XML的性能优化方法进行测试,实现数据访问性能的大幅度提升。结论采用XML技术能够有效提高W eb信息系统的整体性能。  相似文献   

17.
随着Web服务和Agent技术的发展,使构建基于移动Agent计算模型和Web服务计算模型的移动Agent平台成为可能.提出了一种以Web服务为部署形式,利用SOAP/HTTP消息机制进行通信的Agent平台架构.此Agent平台构建在Web服务容器中,为Agent提供了一个轻量级的运行环境,同时也为现有的Web服务容器增加了Agent功能.  相似文献   

18.
 在现有的Web服务架构下,以标准化、易实现的自动服务合成为动机,基于面向对象的思想提出了一种XML格式的标准化Web服务合成描述语言,及其到面向对象编程语言类定义的转换规则.首先基于XML DTD定义了特定领域内服务合成模式,进而提出服务合成的描述语言SCDL,然后给出从SCDL到面向对象编程语言类定义之间的转换规则.理论分析及实验结果表明,所提出的方法具有一定的完备性及有效性.  相似文献   

19.
介绍了管理信息系统中数据交换中心的概念和作用,设计了数据交换中心的模型,并根据该模型使用XML和Web Service的技术开发了数据交换中心,并将其应用于企业的管理信息系统当中。  相似文献   

20.
基于XML的Web数据挖掘技术   总被引:5,自引:0,他引:5  
全面分析了Web挖掘最新技术及发展方向,重点分析了Web结构挖掘、Web内容挖掘方法以及Web Log挖掘等,介绍了基于XML的Web数据挖掘的特点,提出了运用XML解决Web数据挖掘中半结构化数据的模型查询与模型抽取的方法,并通过实例说明了该方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号