首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
色菲  王佳  潘超 《科技信息》2007,(34):75-75,52
互联网已成为人们获得信息、取得服务的重要渠道之一。Web上的数据最大特点就是半结构化。由于目前网络上信息的主要组织形式是HTML格式,而HTML标记语言只描述数据的表现形式,不描述数据含义及结构。因此,计算机无法自动识别。而XML是面向语义的语言,它的产生为解决这一问题提供了条件,即XML能够较好地为计算机所识别。因此本文分析了对由XML表示的数据进行数据抽取的过程。  相似文献   

2.
一种基于XML的Web数据抽取的实现   总被引:2,自引:0,他引:2  
Web数据挖掘的研究越来越广泛,对Web数据的抽取则是研究的前提和必要的步骤.而当前Web信息大多数都是HTML格式的,存在很多缺陷.针对目前研究,简单地介绍了XML及它的特点,并且对HTMLand XML从开放性、可操作性等几个方面做了比较,显示出了XML的优越性.最后利用一个实例简述了基于XML的数据抽取过程.  相似文献   

3.
XML及其在Web数据挖掘中的作用   总被引:1,自引:0,他引:1  
介绍了Web数据的数据环境和结构,XML简单、开放、扩充的特性及XML与HTML的比较.论述了面向Web的数据挖掘需要解决的问题及XML在Web数据挖掘中所起的作用。  相似文献   

4.
党杨阳 《甘肃科技》2011,27(19):40-42,11
XML( Extensible Markup Language)即可扩展标记语言,它与HTML一样,都是处于SGML,标准通用语言.XML是Internet环境中跨平台的、依赖于内容的技术,是当前处理结构化文档信息的有力工具,是一种简单的数据存储语言.目前XML已经成为表示Web上多样性数据的事实标准,可以预见,Web...  相似文献   

5.
基于Web的数据挖掘方法的研究及实现   总被引:3,自引:0,他引:3  
Web上有海量的数据信息,数据挖掘是从大量的数据中发现隐含的规律性内容,充分利用有用数据,废弃无用数据,解决数据的应用质量问题。通过对Web的数据挖掘和XML特点进行分析,讨论了使用XML实现基于Web的数据挖掘方法,提出了一种结合HTML、XML、JAVA的新型数据挖掘技术。  相似文献   

6.
Extensible Markup Language即"可扩展的标置语言"(简记为XML)的出现,为基于Web的数据挖掘带来了便利,开发人员能够用XML的格式标记交换数据。充分利用XML的优点,提供一种利用决策树ID3修正算法和聚类的方法,对XML文档信息进行挖掘,并结合实例说明这种方法。  相似文献   

7.
HTML数据内容的抽取与集成   总被引:11,自引:0,他引:11  
在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。  相似文献   

8.
基于MEDL模型提出了一种以内容为导向的,将HTML转换为XML数据的方法.在该方法中,根据网页中值域和属性域的识别,并结合MEDL模型对HTML中的数据进行提取,并将其转换为符合要求的格式.该方法具有提取信息精确、转换格式统一等优点,且具备很好的扩展性,能够为深入开展Web数据挖掘提供很好的支持.  相似文献   

9.
Internet上有海量的数据信息,有效地应用这些海量数据成了数据库技术的研究热点,Web数据挖掘技术应运而生。XML数据自我描述以及XML的半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取,从而解决Web数据内容挖掘的难题。随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据内容挖掘将会变得轻松。  相似文献   

10.
李璐 《科技信息》2007,(33):274-274,287
XML是在HTML基础上形成的新一代web语言,它主要是关于数据和信息描述的技术。它在数字图书馆管理、专业导航库建设、情报检索、Web中有广泛应用。  相似文献   

11.
设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。  相似文献   

12.
XML与Web数据挖掘技术   总被引:2,自引:1,他引:2  
数据挖掘技术的核心部分已发展了近十年,研究领域涉及数理统计、人工智能、机器学习等。由于Web数据存在方式的特殊性,使Web数据控制变得十分复杂,XML的出现为解决Web数据挖掘的难题带来了机会。若XML成为具有相互连接特性的因特网标准,那么新一代因特网的关键在于把握XML。因此,研究XML在Web数据挖掘中的应用显得十分重要。文中主要讨论了XML的基本概念及XML在Web数据挖掘中的应用。  相似文献   

13.
作为互联网的新技术,XML的应用非常广泛,利用XML技术实现Web数据挖掘,可以根据用户的不同需求,将现有的Web页面中符合用户的有用信息抽取出来。本文综合HTML、XML技术,采用Java语言编程.具体实现了对股票信息的文本抽取。通过追踪某股票不同时刻的价格,实现了对指定股票的报价查询,根据设定自动地从Web上查找股票价格的信息,并通过浏览器呈现给用户。  相似文献   

14.
XML正在成为Internet上数据描述和交换的标准,它将代替HTML而成为Web上存放数据的主要格式.首先讨论了XML的特点,然后介绍了XML的核心技术:DTD、XSL和XLink.并将XML、SGML和HTML作了相应比较,最后对XML数据库进行了简单介绍.  相似文献   

15.
谭锋 《科技资讯》2011,(7):5-5,7
针对在Web信息抽取系统开发中遇到的关键性技术问题,如Web页的HTML文档下载,HTML到XML格式转换,XML文档清理等,分析和探讨了基于.NET技术的编程实现方法.  相似文献   

16.
基于数据仓库的医药行业企业信息门户   总被引:6,自引:0,他引:6  
为了解决医药行业信息孤岛状态,对医药行业企业信息门户进行了功能设计.同时构造了基于数据仓库的医药行业企业信息门户的基本模型,并通过构造相关的医药行业企业的决策树和聚类算法,利用XML语言,实现了相互异构的Web数据挖掘.  相似文献   

17.
随着互联网的迅速发展,Web数据挖掘的应用越来越广泛。本文主要介绍了Web数据挖掘的定义和分类,介绍了面向XML的Web数据挖掘的特点,并探讨了XML在Web数据挖掘中的应用,包括XML在结构上和内容上的挖掘技术。  相似文献   

18.
XML与HTML     
HTML和XML都有一个共同的祖先,都是标记语言。HTML主要显示静态的文本,在显示和打印方面仍然起着重要的作用。XML是HTML的扩展,XML规则较严格,XML可自定义标签,这样使得XML更具有表现力和可扩展性,另外XML在数据交换、Web技术等方面更具魅力。  相似文献   

19.
LOGML-XML在Web使用挖掘中的应用   总被引:1,自引:0,他引:1  
简要介绍了Web使用挖掘的概念和内涵,提出了一种新的XML语言——LOGML,并阐明了LOGML在Web数据挖掘中的作用。  相似文献   

20.
Web数据挖掘是把Internet和数据挖掘技术相结合起来的一个新兴的研究领域,本文阐述了基于XML的Web数据挖掘典型处理流程.且在其基础上设计了一个具体的基于XML的Web数据挖掘系统模型并给出其结构框架和工作机理,致力于提供一个Web数据挖掘的综合处理环境,提高挖掘系统的整体性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号