首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
随着大量的XML数据的出现,给数据挖掘领域提出了新的挑战。传统数据挖掘是基于关系数据库和数据仓库的,如何挖掘出XML形式的数据成为研究的热点问题。由于XML文档是一种半结构化数据,使用传统的数据挖掘方法对XML数据进行挖掘是不适用的。提出了一种基于粗糙集理论的XML挖掘模型,并进行了实验,结果表明利用粗糙集理论对XML数据挖掘是可行的。  相似文献   

2.
面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个难以解决的问题。而XML的出现为解决Web数据挖掘的难题带来了机会。  相似文献   

3.
在分析Web内容挖掘特征的基础上,提出一种基于XML技术的Web内容挖掘模型.利用HITS算法确定权威Web页面,利用HTMLTidy工具将非XML文件经过数据清洗后转换成结构良好的XMI。文档,结合互联网上传统科技论文的自动抽取系统实例,采用文本聚类分类技术进行面向XML文档数据的数据挖掘.实验结果表明,该模型工作良好,可以自动、有效地提取网页内容.  相似文献   

4.
XML及其在Web数据挖掘中的作用   总被引:1,自引:0,他引:1  
介绍了Web数据的数据环境和结构,XML简单、开放、扩充的特性及XML与HTML的比较.论述了面向Web的数据挖掘需要解决的问题及XML在Web数据挖掘中所起的作用。  相似文献   

5.
基于XML的WEB数据挖掘系统框架的设计与实现   总被引:9,自引:0,他引:9  
互联网的广泛应用使Web数据挖掘成为当前数据挖掘技术研究的热点,而XML正逐渐成为新一代互联网数据组织和交换的事实标准,两者的结合-基于XML的Web数据挖掘技术成为Web数据挖掘中一个重要的研究课题。分析了Web数据挖掘技术的难点,提出了一个基于XML的Web内容数据挖掘系统框架。  相似文献   

6.
本文分析了Web网页的数据挖掘最新技术及发展方向,介绍了基于XML的Web数据挖掘的特点,提出了基于XML的数据抽取技术,最终得到所需的数据并通过一个通用的应用模式进行挖掘的全过程.  相似文献   

7.
数据挖掘技术的核心部分已发展了近十年,研究领域涉及数理统计,人工智能,机器学习等,当今,随着人们对数据的需求的不断加强,以及WEB技术的飞速发展,使得数据挖掘技术又向前迈进了一步,面向WEB的数据挖掘是目前数据挖掘技术的一大热点,但由于WEB数据的存在方式的特殊性,使WEB数据挖掘变得十分复杂,而XML的出现,为WEB数据挖掘技术带来了巨大的发展契机。  相似文献   

8.
针对对海量数据库中的大数据进行优化挖掘,可以提高数据特征的提取和检测能力.传统方法采用模糊C均值聚类的数据挖掘算法,当数据在层次聚类过程中空间特征的相似度差异性较小时,数据挖掘的准确度不高.提出一种基于粒子群混沌差分训练对模糊C均值聚类算法进行改进,建立数据挖掘优化模型.首先提出了数据聚类据挖掘模型的总体构架,采用非线性时间序列分析方法进行数据信息流拟合,对数据信息流进行高阶累积量特征提取,采用粒子群混沌差分训练实现模糊C均值聚类算法改进.以改进的模糊聚类算法对提取的高阶累积量特征进行聚类分析,以分析结果为依据对数据挖掘模型进行优化.仿真结果表明,该数据挖掘模型能有效实现海量数据的优化聚类和特征提取,数据挖掘的精度较高,性能较好,避免挖掘过程陷入局部收敛.  相似文献   

9.
基于XML的Web数据挖掘   总被引:4,自引:0,他引:4  
介绍了数据挖掘、Web数据挖掘以及XML的基础知识,阐述了将XML技术应用于Web数据挖掘,构建基于XML的Web数据挖掘系统结构.  相似文献   

10.
Web数据挖掘是将数据挖掘技术和理论应用于对互联网资源挖掘的一门新兴研究领域.XML能够为web数据挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题.分析了Web数据挖掘的特点,并将XML技术引入Web数据挖掘领域中,进而在此基础之上介绍了一种数据挖掘的模型.  相似文献   

11.
在模糊XML数据管理中,模糊XML文档和模糊DTD的相似性是模糊XML数据整合、模糊XML文档聚类的关键步骤.为了研究模糊XML文档和模糊DTD的相似性,对模糊DTD树进行了规则变换,主要解决元素和属性的析取约束和基数约束问题,即由析取范式转化为合取范式,将元素或属性的重复次数确定化,然后利用树编辑距离算法对模糊XML文档树和转化后的模糊DTD树集合进行相似性对比.通过实验验证了所提方法的性能优势.  相似文献   

12.
模糊XML关键字查询方法   总被引:1,自引:0,他引:1  
在实际应用中数据经常存在不确定性和模糊性,因而对模糊XML数据的关键字查询处理成为一种非专业用户的需求.针对模糊XML数据的关键字查询方法进行研究,对模糊XML的关键字查询语义进行分析,提出一种新的模糊XML文档的编码方法 CDewey,该编码方法能够有效地对节点类型进行区分.在此基础上,提出关键字查询算法FIndex Loop,该算法能够准确求解输入关键字的SLCA结果及结果的可能性值,最后通过实验表明此查询方法的有效性.  相似文献   

13.
Extensible Markup Language即"可扩展的标置语言"(简记为XML)的出现,为基于Web的数据挖掘带来了便利,开发人员能够用XML的格式标记交换数据。充分利用XML的优点,提供一种利用决策树ID3修正算法和聚类的方法,对XML文档信息进行挖掘,并结合实例说明这种方法。  相似文献   

14.
基于XML Schema的模糊数据建模方法   总被引:1,自引:0,他引:1  
为了满足现实Web应用中对不精确和不确定信息处理的需要,提出了一种基于XML Schema的模糊XML数据模型.利用该模糊XML数据模型,模糊信息在XML文档中能以自然的方式进行表示.在模糊集和可能性分布理论的基础上,分析了XML文档中模糊数据的多重粒度,给出了不同类型模糊数据的XML Schema表示方法.为模糊数据的Web发布与共享,以及实现基于Web的智能信息处理奠定了坚实的基础.  相似文献   

15.
数据挖掘是一种新兴的信息处理技术,模糊聚类是数据挖掘领域中的一个重要研究课题。论文从数据挖掘的概念出发,研究分析了模糊聚类的主要算法,并从多个方面对这些算法性能进行比较,同时还对模糊聚类分析在数据挖掘中的应用进行了阐述,最后对模糊聚类的研究领域进行了总结和展望。  相似文献   

16.
为了管理模糊时空XML数据,将若干个模糊构造子引入到XML文档中,并对XML文档的Schema进行模糊时空扩展,同时,通过修改XML文档的Schema以容纳这些新引入的模糊构造子.由此形式化提出模糊时空XML数据模型,之后分别对模糊时空XML数据模型中OID部分、ATTR部分、FP部分、FM部分以及FT部分的Schema进行扩展,并举出具体实例加以说明.通过对Schema的扩展,使其兼容模糊时空信息,方便管理模糊时空XML数据,从而可以进一步表示、推理和查询模糊时空XML数据.  相似文献   

17.
为了解决目前存在大量XML文档无模式定义的问题,提出一种XML文档模式的自动构造算法.该算法以XML数据为输入,输出具有通用意义的文档模式,再根据具体要求转化到所要求的文档定义类型.实验证明,该模式构造算法确实可行,且具有较好的通用性,可应用于模式的自动生成、XML数据模式挖掘等方面.  相似文献   

18.
By rapid progress of network and storage technologies, a huge amount of electronic data such as Web pages and XML has been available on Internet. In this paper, we study a data-mining problem of discovering frequent ordered sub-trees in a large collection of XML data, where both of the patterns and the data are modeled by labeled ordered trees. We present an efficient algorithm of Ordered Subtree Miner (OSTMiner) based on two- layer neural networks with Hebb rule, that computes all ordered sub-trees appearing in a collection of XML trees with frequent above a user-specified threshold using a special structure EM-tree. In this algo- rithm, EM-tree is used as an extended merging tree to supply scheme information for efficient pruning and mining frequent sub-trees. Experiments results showed that OSTMiner has good response time and scales well.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号