首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
一种挖掘频繁模式的数据库划分新方法   总被引:3,自引:1,他引:2  
提出了一种新的数据库划分方法。该方法应用于需要产生候选项的频繁模式的挖掘过程,可以大大减少对数据库的扫描操作,提高数据挖掘效率,特别是对于较长模式的数据挖掘更是如此。该方法是将交易数据库按照交易的长度(或者说模式的长度)划分成若干个子数据库,将等长度的交易划分到同一个子数据库中,这样在获取候选项的支持度时,只需要扫描模式长度大于等于相应候选项长度的子数据库即可,从而减少了对数据库的扫描操作。给出了基于数据库划分的挖掘算法,通过理论推导和实验证明了该方法的有效性。  相似文献   

2.
基于包含索引的频繁闭序列模式挖掘的新算法   总被引:1,自引:0,他引:1  
频繁闭序列模式惟一确定全体频繁序列模式,且规模小得多.传统的闭序列模式挖掘算法对每个频繁项目都进行扩展,往往会产生大量的非闭合序列.为解决这一问题,提出了一种新的基于包含索引的频繁闭序列模式挖掘算法,其主要思想是只对闭项集进行扩展,大大减少了非闭合序列的产生.首先,论证了闭序列模式只能由闭项集组成;其次,说明了如何利用包含索引来快速发现闭项集;最后,给出了一种深度优先的挖掘频繁闭序列模式的新算法.实验结果表明,该算法具有较高的效率.  相似文献   

3.
针对分布式系统,提出了自适应哈希链结构的频繁模式挖掘算法。该算法首先在每个站点产生局部频繁1-项集,再产生全局频繁1-项集,根据全局频繁1-项集产生各站点的投影数据库,在各个站点分别扫描投影数据库中的交易,并根据站点可用内存情况形成相应大小的哈希链结构。通过挖掘各站点的哈希链结构得到全局频繁项集。给出了基本步骤和挖掘算法。研究表明该算法不但效率高,而且适应性强。  相似文献   

4.
一种挖掘最大频繁子图的新算法   总被引:2,自引:0,他引:2  
如何从大量的图中挖掘出令人感兴趣的子图模式已经成为数据挖掘领域研究的热点之一.由于其内在的计算复杂性,挖掘全部频繁子图非常困难,且得到的频繁子图过多,影响着结果的理解和应用.解决方案之一是挖掘最大频繁子图.在经典的Apriori算法的基础上,提出了一种挖掘最大频繁予图的新算法Apriori-MaxGraph.首先给出了一种新的、用于计算图的邻接矩阵规范编码的结点排序策略,大大降低了求图规范编码的复杂度,并可以加速子图规范编码序列匹配的速度.其次,针对最大频繁子图,对候选子图的生成进行了规范.最后,采用双向搜索与剪枝策略,大大减小了搜索空间,提高了算法的效率,实验结果表明,Apriori-MaxGraph算法具有较高的挖掘效率.  相似文献   

5.
频繁模式挖掘是很多数据流挖掘工作的基础.现有算法虽然能够有效的在数据流中挖掘近似的频繁模式, 但是由于数据流数据的不确定性、连续性以及海量性, 始终不能有效的将算法的时间效率和空间效率控制在一个可以接受的范围内. 本文通过使用散列表作为概要数据的存储结构, 并引入关联规则兴趣度的概念, 提出了数据流频繁模式挖掘算法MIFS-HT(mining interesting frequent itemsets with hash table), 不仅有效降低现有算法的时空复杂度, 同时提高了算法的应用价值. 最后, 实验结果表明: MIFS-HT是一种高效的数据流频繁模式挖掘算法, 其性能优于FP-Stream、Lossy Counting等算法, 并且挖掘结果更具有现实意义.  相似文献   

6.
提出一种基于多维属性索引树的新闻事件多维频繁模式挖掘方法。该方法首先根据新闻事件属性建立多维关系数据库,然后将属性集按其特性分成非内容属性集和内容属性集两部分,依据非内容属性集创建多维属性索引树,同时利用概念分层对索引树属性进行概念泛化,以解决数据稀疏问题;最后基于多维索引树挖掘新闻事件多维频繁模式。通过真实数据集上的实验,验证了方法的有效性和优越性。  相似文献   

7.
为提高关联规则挖掘算法的效率及其对大型数据集的适应性,提出了基于划分的带项目约束的频繁项集挖掘算法Partition CHS Miner。算法按照约束条件裁减数据集,并采用基于约束的超结构CHS(con-straint-based hyper-structure)存储数据。对大型数据集,先将其划分为多个不相交的数据子集,使子集的大小适合主存,然后在子集上采用基于超结构的带项目约束的挖掘算法挖掘出局部频繁项集,最后合并所有子集中的频繁项集形成全局的带约束的候选项集,计算出全局频繁项集。实验证明了算法的有效性。  相似文献   

8.
提出了一个基于频繁模式树即FP-tree和支持度数组相结合的最大频繁项集挖掘算法,首先建立FP-tree,同时建立支持度数组,然后在此基础上建立最大频繁项集树MAXFP-tree,MAXFP-tree中包含了所有最大频繁项集,缩小了搜索空间,提高了算法的效率。算法分析和实验表明,该算法对稠密型数据集和稀疏型数据集均适用,并且特别适于挖掘具有长频繁项集的数据集。  相似文献   

9.
在分析和研究诸多经典关联规则挖掘算法或最大频繁项目集挖掘算法的基础上,提出了一种新的极大频繁项目集挖掘算法BOFPV_MMFIA算法.该算法引入频繁项目集向量FP-V,将极大频繁项目集的挖掘过程转化为频繁项目集向量FP-V的与运算过程.算法只需扫描数据库一次,克服了Apriori及其相关算法产生大量候选集和需多次扫描数据库的缺点.又不同于BOM算法,挖掘频繁k_项目集时,需要进行 次k个向量的与运算.因此,BOFPV_MMFIA算法的效率明显高于Apriori、DMFIA及BOM算法.  相似文献   

10.
频繁子图已成为数据挖掘领域研究的热点之一。在经典的Apriori算法的基础上,提出了一种图挖掘的新算法Apriori-Graph。首先给出了一种新的、用于计算图的邻接矩阵规范编码的结点排序策略,大大降低了求图规范编码的复杂度,并可加速子图规范编码序列匹配的速度。其次,对候选子图的生成进行了规范。最后,针对频繁性检验这一瓶颈过程,给出了若干性质,从而较大地降低了候选子图频繁性判断的代价。实验结果表明,Apriori-Graph算法具有较高的挖掘效率。  相似文献   

11.
提出了通过逻辑蕴涵的演绎规则来构建频繁项集的简洁表示,而不是挖掘所有的频繁项,来降低频繁项集中的冗余性,并利用演绎规则来构建所有频繁项集的简洁表示,从而减少存取数据库和对项集进行计数的次数,最终提供一个更加紧凑的频繁项集输出.最后,通过试验说明了该方法的有效性.  相似文献   

12.
在数据流挖掘中,界标窗体考虑了历史模式对当前挖掘的影响,但没考虑到随时间的推移模式衰减的问题。滑动窗口能记录最新、最有用的模式,但窗口的最佳大小无法准确确定。针对一些仿真系统中具有数据流特点的数据,提出了一种挖掘混合窗口中闭频繁项集的方法T-Moment。该方法能在单遍扫描数据流的条件下完整地记录模式信息。同时,T-Moment提出的减枝方法能很好地降低滑动窗口树F-tree的空间复杂度与闭频繁模式树T-tree的维护代价。此外,该方法提出的时间衰减机制能区分历史和最新模式。大量仿真实验结果表明,T-Moment有很好的效率和准确性。
Abstract:
In data mining,boundary window considers the influence of history pattern to the current mining result,but do not think over mode decaying as time passed. Sliding window can record the latest and most useful patterns,but the best size can not be accurately determined. To aim at data with the characteristics of data flow in some simulation systems,a method for mining the closed frequent patterns in the mixed window of data stream was proposed. The pattern of data stream could be completely recorded by scanning the stream only once. And the pruning method of T-Moment could reduce the space complexity of sliding window tree and the maintenance cost of the closed frequent patterns tree. To differentiate the historical and the latest patterns,a time decaying model was applied. The experimental results show that the algorithm has good efficiency and accuracy.  相似文献   

13.
基于网络的数值关联规则挖掘方法   总被引:2,自引:0,他引:2  
关联规则 ( Association Rules)发现的是属性间的关系 .属性可以是逻辑型的 ,也可以是数值型的 .在从逻辑型属性描述的数据中发现关联规则方面已经有许多比较成熟的算法 ,而在数值型属性方面则不然 .将数值关联规则挖掘问题映射成逻辑关联规则挖掘问题是一种方便有效的方法 .本文给出了一个新的数值属性关联规则挖掘算法 ,该算法利用数据本身的特征决定对数值属性值域的划分 ,进而将划分后的所有区间映射为逻辑属性 (项目 ) ,在此基础上可以挖掘出更容易理解、更具有概括性的有效关联规则 .本文给出了一个发现频繁项目集搜索算法 ,并采用一种纵向数据库格式来简化项目集支持度的计算.  相似文献   

14.
Exceptional rules are often ignored because of their small support. However, they have high confidence, so they are useful sometimes. A new algorithm for mining exceptional rules is presented, which creates a large itemset from a relatively small database and scans the whole database only one time to generate all exceptional rules. This algorithm is proved to be quick and effective through its application in a mushroom database.  相似文献   

15.
一种基于XML的Web数据挖掘模型   总被引:27,自引:0,他引:27  
随着 HTML格式的出现 ,Internet得到了迅猛发展 ,面对着浩瀚如烟的数据 ,为了从中发现潜在的、有价值的信息 ,必须对 Web信息进行挖掘 ,但由于 HTML语言特点 ,使得 Web信息的组织结构性很差 ,对于进行 Web数据挖掘工作有很大的阻碍 ,XML语言的出现从根本上解决了这个问题 ,XML语言具有良好的结构 ,层次性好 ,用其对 Web页面信息进行组织 ,有利于进行数据挖掘工作 .本文通过对XML语言的认识提出了一个基于 XML的 Web Miner模型 ,以帮助用户快速、有效的挖掘 Web上的信息.  相似文献   

16.
数据挖掘系统设计   总被引:34,自引:0,他引:34  
随着海量数据库技术的不断发展 ,出现了数据丰富但知识贫乏的现象 .为解决这一问题 ,近年来 ,提出了数据挖掘 ( Data Mining)和知识发现 ( KDD)技术 .本文介绍了数据挖掘系统的概念及具体的运做流程 ,并提出了一个原形系统的构建模型 .最后 ,指出在数据挖掘技术发展中面临的一些问题.  相似文献   

17.
一种基于Rough集的时间序列数据挖掘策略   总被引:11,自引:0,他引:11  
阐述了基于 Rough集的时间序列数据的挖掘策略 ,重点讨论了时间序列数据中的时序与非时序信息的获取问题 .实践证明 ,Rough集理论作为一种处理模糊和不确定性问题的有效工具 ,对于时间序列数据的挖掘同样也是有效的 .文章强调了时间序列数据中的多方面信息 ,包括原始数据及其变化量、变化率所提供的信息.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号