首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
The number of frequent subtrees usually grows exponentially with the tree size because of combinatorial explosion. As a result, there are too many frequent subtrees for users to manage and use. To solve this problem, we generalize a compressed frame based on δ-cluster to the problem of compressing frequent-subtree sets, and propose an algorithm RPTlocal which can mine compressed frequent subtrees set directly. This algorithm sacrifices the theoretical bounds but still has good compression quality. By pruning the search space and generating frequent subtrees directly, this algorithm is also efficient. Experiment result shows the representative subtrees mining by RPTlocal is almost two orders of magnitude less than the whole collection of the closed subtrees, and is more efficient than CMtreeMiner, the algorithm for mining both closed and Maximal frequent subtrees. Foundation item: Supported by the National Natural Science Foundation of China (70371015)  相似文献   

2.
It is nontrivial to maintain such discovered frequent query patterns in real XML-DBMS because the transaction database of queries may allow frequent updates and such updates may not only invalidate some existing frequent query patterns but also generate some new frequent query patterns. In this paper, two incremental updating algorithms, FUXQMiner and FUFXQMiner, are proposed for efficient maintenance of discovered frequent query patterns and generation the new frequent query patterns when new XML queries are added into the database. Experimental results from our implementation show that the proposed algorithms have good performance.  相似文献   

3.
流数据频繁项挖掘是一项重要的研究课题,是其他流数据挖掘任务的基础。Lossy counting 算法是第一个近似的流数据频繁项挖掘的算法,并且具有空间和时间的高效性。详细分析该算法,尤其是它不能回答关于时间的查询的不足后,对其进行改进,提出了一个在多时间粒度上挖掘流数据频繁项的设想,加入时间维度。改进后的算法在时间倾斜窗口保存与合并频繁项,可以应用于各种对时间敏感的流数据查询和挖掘应用中。  相似文献   

4.
为了提高半结构化文档数据流的挖掘效率,对原有挖掘算法StreamT进行了改进,提出了一种半结构化文档数据流的快速频繁模式挖掘算法--FStreamT.该算法针对利用集合存储候选频繁模式效率较低的缺点,采用枚举树存储候选频繁模式,可以有效地提高对候选频繁模式集合进行查找和更新的效率,同时利用频繁模式的单调性和枚举树的特点减小了维护负边界的搜索空间,从而提高了整个算法的效率.理论分析和实验结果表明,算法FStreamT与算法StreamT相比具有较高的效率,是有效可行的.  相似文献   

5.
为了克服传统高维数据挖掘频繁闭合模式算法迭代产生子表,引起算法执行时间长和存储开销大等问题,提出了一种高效挖掘高维数据的频繁闭合模式的算法EMHCP. EMHCP算法采用一种新型结构位图表来压缩存储数据,在仅扫描数据库一次后,建立位图转换表.根据位图转换表来构建混合树结构,采用深度优先的方式和有效的剪枝策略高效挖掘出所有的闭合模式.从而有效地缩小了搜索空间,加快了处理速度.通过在生物数据库应用的实验结果表明, EMHCP算法比已有的CARPENTER和TD-close等算法更为有效.  相似文献   

6.
基于时间段的时序规则发现   总被引:1,自引:0,他引:1  
时序规则挖掘用以挖掘数据库中与时间相关的规则及模式.现今大部分时序数据挖掘均是针对基于时间点的,基于时间段的挖掘相对较少.在此提出一个新的基于时间段的时序规则挖掘算法,通过挖掘频繁闭模式集取代完整频繁模式集,减少了挖掘时间,算法效率很高.  相似文献   

7.
XML与Web数据挖掘技术   总被引:2,自引:1,他引:2  
数据挖掘技术的核心部分已发展了近十年,研究领域涉及数理统计、人工智能、机器学习等。由于Web数据存在方式的特殊性,使Web数据控制变得十分复杂,XML的出现为解决Web数据挖掘的难题带来了机会。若XML成为具有相互连接特性的因特网标准,那么新一代因特网的关键在于把握XML。因此,研究XML在Web数据挖掘中的应用显得十分重要。文中主要讨论了XML的基本概念及XML在Web数据挖掘中的应用。  相似文献   

8.
基于神经网络的数据挖掘方法评述   总被引:1,自引:0,他引:1  
简要叙述了数据挖掘的概念及几种主要的基于神经网络的数据挖掘方法,并对这些方法的研究现状进行了评述,指出其存在的问题.展望神经网络在数据挖掘中的发展潜力.  相似文献   

9.
数据流中一种有效的当前频繁序列挖掘方法   总被引:1,自引:0,他引:1  
给出了一种基于滑动窗口挖掘频繁序列算法。该算法给出了ε-近似序列集的定义,利用一种压缩的数据结构GSP-tree来存储和维护整个滑动窗口中各分区的近似序列集,并通过合并各分区的近似序列集来响应用户当前的查询请求。  相似文献   

10.
频繁模式挖掘中基于FP-growth的算法需要扫描两次事务数据库,预先给定支持度,且不支持时间敏感型数据。本文提出了一种基于频繁模式有向无环图的数据流频繁模式挖掘算法,它根据事务到来的时间给每个事务一个序号,每个事务中的数据项在存储前按数据项的顺序进行调整,频繁模式有向无环图的构建遵循这个顺序并用序号来记录事务与数据项的包含关系,模式增长过程只需要增加有向边上的序号。通过逆向遍历带有相同序号的有向边,产生条件模式基,根据动态定义的阈值抽取条件模式基信息,一次扫描数据库得到频繁模式。实验结果表明,本文算法的执行效率优于FP-growth算法,且存储节点的数目明显减少。  相似文献   

11.
介绍了采用人工神经网络,特别是概率神经网络(PNN)技术进行语音识别的原理.提出了一类基于概率神经网络的解决元音识别问题的模型,并且通过一个试验,研究了用于语音识别的PNN模型中的参数设置.试验表明,该模型对于元音的识别具有较好的识别率.  相似文献   

12.
基于数据挖掘的金融时序频繁模式的快速发现   总被引:2,自引:0,他引:2  
针对金融时间序列分析中注重快速作出趋势判断的特点,利用数据挖掘的思想和工具,提出一种金融时间序列模式快速发现算法.与传统的预测算法相比较,该算法对数据的分布和平稳性等方面的要求不高,不基于任何假设,能够非常快速地发现时间序列中的频繁模式,经过模式匹配后,可以用于金融时间序列的分析与预测.以实际汇率数据为例,证明了该算法的有效性.  相似文献   

13.
根据数据流的特点,提出了一种挖掘约束频繁闭合项集的算法,该算法将数据流分段,用DSCFCI_tree动态存储潜在约束频繁闭合项集,对每一批到来的数据流,首先建立局部DSCFCI_tree,进而对全局DSCFCI_tree进行有效更新并剪枝,从而有效地挖掘整个数据流中的约束频繁闭合模式.实验表明,该算法具有很好的时间和空间效率.  相似文献   

14.
一种不确定性数据中最大频繁项集挖掘方法   总被引:1,自引:0,他引:1  
不确定性数据挖掘已经成为数据挖掘领域的新热点,频繁项集挖掘是重点研究的问题之一.但是目前出现的挖掘算法大多集中在完全频繁项集,而用于最大频繁项集和频繁闭项集的算法尚不多见.文中研究了一种基于UF-Tree的用于不确定性数据中挖掘最大频繁项集的算法,该挖掘过程分为两个步骤,第一步先得到以频繁1-项集为后缀的局部最大频繁项集,第二步得到所有的全局最大频繁项集,实验证明该算法性能良好且特别适用于稠密型、事务长度较小的数据集.  相似文献   

15.
基于数据流的频繁集挖掘   总被引:2,自引:0,他引:2  
针对数据流特殊的数据类型,提出了一种新的数据流挖掘算法.该算法引入了一个全新的优化方法,将边界集和频繁产生集结合起来.频繁产生集是频繁集的一种无损简缩表达方式.它所包含的模式数量比频繁集所包含的模式数量小若干数量级.边界集是频繁产生模式和其他模式之间的边界,通过观察边界集的变化可以生成新的频繁产生模式.实验结果表明,该算法的性能有明显的提高.  相似文献   

16.
Frequent Pattern mining plays an essential role in data mining. Most of the previous studies adopt an Apriori-like candidate set generation-and-test approach. However, candidate set generation is still costly, especially when there exist prolific patterns and/or long patterns.In this study, we introduce a novel frequent pattern growth (FP-growth) method, which is efficient and scalable for mining both long and short frequent patterns without candidate generation. And build a new projection frequent pattern tree (PFP-tree) algorithm on this study, which not only heirs all the advantages in the FP-growth method, but also avoids it's bottleneck in database size dependence when constructing the frequent pattern tree (FP-tree). Efficiency of mining is achieved by introducing the projection technique, which avoid serial scan each frequent item in the database, the cost is mainly related to the depth of the tree, namely the number of frequent items of the longest transaction in the database, not the sum of all  相似文献   

17.
基于XML的Web数据挖掘   总被引:4,自引:0,他引:4  
介绍了数据挖掘、Web数据挖掘以及XML的基础知识,阐述了将XML技术应用于Web数据挖掘,构建基于XML的Web数据挖掘系统结构.  相似文献   

18.
基于XML的Web数据挖掘技术   总被引:5,自引:0,他引:5  
全面分析了Web挖掘最新技术及发展方向,重点分析了Web结构挖掘、Web内容挖掘方法以及Web Log挖掘等,介绍了基于XML的Web数据挖掘的特点,提出了运用XML解决Web数据挖掘中半结构化数据的模型查询与模型抽取的方法,并通过实例说明了该方法.  相似文献   

19.
研究事件序列中频繁情节的发现问题,提出了在事件序列中发现频繁并行情节的增量式算法。如果在事件序列中发现了频繁情节及其出现频率,就可以生成描述或预测该序列行为的情节规则。  相似文献   

20.
前馈型神经网应用于非线性系统辨识的一个问题是确定系统阶次。采用前馈神经网进行非线性系统定阶与神经网的推广性问题密切相关。OLS算法是构筑径向基神经网的一种学习算法,但是采用OLS算法构筑神经网存在推广性问题。ROLS算法将OLS算法与正则化(regularization)方法相结合,以提高算法的推广能力。本文将基于径向基网的ROLS算法应用于非线性系统定阶。本文对提出的方法进行了仿真研究,结果验证了方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号