共查询到20条相似文献,搜索用时 212 毫秒
1.
2.
一种基于XML的Web数据抽取的实现 总被引:2,自引:0,他引:2
Web数据挖掘的研究越来越广泛,对Web数据的抽取则是研究的前提和必要的步骤.而当前Web信息大多数都是HTML格式的,存在很多缺陷.针对目前研究,简单地介绍了XML及它的特点,并且对HTMLand XML从开放性、可操作性等几个方面做了比较,显示出了XML的优越性.最后利用一个实例简述了基于XML的数据抽取过程. 相似文献
3.
XML及其在Web数据挖掘中的作用 总被引:1,自引:0,他引:1
汤建超 《五邑大学学报(自然科学版)》2003,17(2):35-38
介绍了Web数据的数据环境和结构,XML简单、开放、扩充的特性及XML与HTML的比较.论述了面向Web的数据挖掘需要解决的问题及XML在Web数据挖掘中所起的作用。 相似文献
4.
XML( Extensible Markup Language)即可扩展标记语言,它与HTML一样,都是处于SGML,标准通用语言.XML是Internet环境中跨平台的、依赖于内容的技术,是当前处理结构化文档信息的有力工具,是一种简单的数据存储语言.目前XML已经成为表示Web上多样性数据的事实标准,可以预见,Web... 相似文献
5.
基于Web的数据挖掘方法的研究及实现 总被引:3,自引:0,他引:3
Web上有海量的数据信息,数据挖掘是从大量的数据中发现隐含的规律性内容,充分利用有用数据,废弃无用数据,解决数据的应用质量问题。通过对Web的数据挖掘和XML特点进行分析,讨论了使用XML实现基于Web的数据挖掘方法,提出了一种结合HTML、XML、JAVA的新型数据挖掘技术。 相似文献
6.
7.
HTML数据内容的抽取与集成 总被引:11,自引:0,他引:11
在XML基础上,利用HTML Tidy可实现轻量级的Web数据挖掘和转换。转换过程主要解决的是HTML文档及其集合要表达的模式信息的分离。转换步骤是利用HTML Tidy提供的标准类库,净化HTML文档,借助DOM生成树对HTML元素结构做进一步分析,最后通过XSL、XPATH等自动提取转换。 相似文献
8.
基于MEDL模型提出了一种以内容为导向的,将HTML转换为XML数据的方法.在该方法中,根据网页中值域和属性域的识别,并结合MEDL模型对HTML中的数据进行提取,并将其转换为符合要求的格式.该方法具有提取信息精确、转换格式统一等优点,且具备很好的扩展性,能够为深入开展Web数据挖掘提供很好的支持. 相似文献
9.
Internet上有海量的数据信息,有效地应用这些海量数据成了数据库技术的研究热点,Web数据挖掘技术应运而生。XML数据自我描述以及XML的半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取,从而解决Web数据内容挖掘的难题。随着XML作为在Web上交换数据的一种标准方式的出现,面向Web的数据内容挖掘将会变得轻松。 相似文献
10.
XML是在HTML基础上形成的新一代web语言,它主要是关于数据和信息描述的技术。它在数字图书馆管理、专业导航库建设、情报检索、Web中有广泛应用。 相似文献
11.
《齐齐哈尔大学学报(自然科学版)》2017,(2)
设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。 相似文献
12.
XML与Web数据挖掘技术 总被引:2,自引:1,他引:2
林建勤 《贵州师范大学学报(自然科学版)》2003,21(2):106-110
数据挖掘技术的核心部分已发展了近十年,研究领域涉及数理统计、人工智能、机器学习等。由于Web数据存在方式的特殊性,使Web数据控制变得十分复杂,XML的出现为解决Web数据挖掘的难题带来了机会。若XML成为具有相互连接特性的因特网标准,那么新一代因特网的关键在于把握XML。因此,研究XML在Web数据挖掘中的应用显得十分重要。文中主要讨论了XML的基本概念及XML在Web数据挖掘中的应用。 相似文献
13.
14.
针对在Web信息抽取系统开发中遇到的关键性技术问题,如Web页的HTML文档下载,HTML到XML格式转换,XML文档清理等,分析和探讨了基于.NET技术的编程实现方法. 相似文献
15.
XML正在成为Internet上数据描述和交换的标准,它将代替HTML而成为Web上存放数据的主要格式.首先讨论了XML的特点,然后介绍了XML的核心技术:DTD、XSL和XLink.并将XML、SGML和HTML作了相应比较,最后对XML数据库进行了简单介绍. 相似文献
16.
基于数据仓库的医药行业企业信息门户 总被引:6,自引:0,他引:6
为了解决医药行业信息孤岛状态,对医药行业企业信息门户进行了功能设计.同时构造了基于数据仓库的医药行业企业信息门户的基本模型,并通过构造相关的医药行业企业的决策树和聚类算法,利用XML语言,实现了相互异构的Web数据挖掘. 相似文献
17.
阮树银 《芜湖职业技术学院学报》2004,6(3):37-38
HTML和XML都有一个共同的祖先,都是标记语言。HTML主要显示静态的文本,在显示和打印方面仍然起着重要的作用。XML是HTML的扩展,XML规则较严格,XML可自定义标签,这样使得XML更具有表现力和可扩展性,另外XML在数据交换、Web技术等方面更具魅力。 相似文献
18.
LOGML-XML在Web使用挖掘中的应用 总被引:1,自引:0,他引:1
简要介绍了Web使用挖掘的概念和内涵,提出了一种新的XML语言——LOGML,并阐明了LOGML在Web数据挖掘中的作用。 相似文献
19.
随着互联网的迅速发展,Web数据挖掘的应用越来越广泛。本文主要介绍了Web数据挖掘的定义和分类,介绍了面向XML的Web数据挖掘的特点,并探讨了XML在Web数据挖掘中的应用,包括XML在结构上和内容上的挖掘技术。 相似文献
20.
Liu Jianghong Liu Jinxuan 《科技信息》2008,(23)
Web数据挖掘是把Internet和数据挖掘技术相结合起来的一个新兴的研究领域,本文阐述了基于XML的Web数据挖掘典型处理流程.且在其基础上设计了一个具体的基于XML的Web数据挖掘系统模型并给出其结构框架和工作机理,致力于提供一个Web数据挖掘的综合处理环境,提高挖掘系统的整体性能。 相似文献