首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
频繁模式挖掘是数据挖掘领域中一个重要的研究方向,目前已有很多算法被用于挖掘频繁模式.本文在研究FP-growth算法的基础上,提出一种新的频繁模式挖掘算法——QFP算法.首先对每一个频繁项建立一棵QFP树,进而根据设定的条件对每棵树进行挖掘,直到找出符合条件的频繁模式.实验证明该算法能够减少条件子树的生成数量,降低对内存空间的依赖和CPU的计算时间,从而提高关联规则挖掘的效率.  相似文献   

2.
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进改进以提高算法的效率。该文提出了一种基于位表的频繁项集挖掘算法,用一种特别的数据结构———位表来压缩数据库以便快速产生候选集和支持计数,实验结果表明;此算法大大减少了遍历的时间,是性能比较好的算法。  相似文献   

3.
发现约束最大频繁项目集是多种数据挖掘应用中的关键问题.目前已有许多算法可用于发现约束频繁项目集,而对约束最大频繁项目集的挖掘研究工作却很少.因此,需要设计一种高效的算法来挖掘出约束最大频繁项目集.为此,笔者提出了一种快速的约束最大频繁项目集的挖掘算法,并举例说明了该算法的执行过程.  相似文献   

4.
在研究已有算法的基础上提出了一种频繁序列挖掘算法IDSG.该算法通过在频繁项(而不是频繁项集,即无需先求出所有频繁项集)间建立关联图,并在垂直数据库表达的基础上,借助简单的时态连接得到频繁序列完全集.整个过程只需扫描原始数据库两遍,有效减少磁盘I/O.另外,优化策略的正确运用,有助于减少候选序列的个数.分析及实验表明,较之同类算法,算法IDSG在效率上有了明显提高.  相似文献   

5.
针对光纤接入(fiber to the x,FTTx)网络规划中频繁路径挖掘问题,在经典算法FP-Growth,SPADE的基础上,结合格理论,利用频繁项集扩展枚举树作为搜索空间,并引入位图方便扩展运算和支持度计算,提出了一个改进的频繁序列挖掘算法FSM+。详细介绍了该算法的相关性质和基本理论,阐述了该算法的基本思想和实现伪码。在VC++6.0和单机的环境下,利用不同规模用户装机数据集和最小支持度比较了该算法与SPADE,FP-Growth算法的性能和准确性。实验证明,FSM+算法在小规模数据集下性能优势并不明显,但在大数据集下其计算性能分别是SPADE,FP-Growth的5倍和7倍多,挖掘结果与SPADE,FP-Growth算法相同。从而在实际网络规划过程中,快速计算信任度较高的频繁模式,并与人工经验干预相结合,来进一步保证预测路径准确有效。  相似文献   

6.
针对光纤接入(fiber to the x,FTTx)网络规划中频繁路径挖掘问题,在经典算法FP-Growth,SPADE的基础上,结合格理论,利用频繁项集扩展枚举树作为搜索空间,并引入位图方便扩展运算和支持度计算,提出了一个改进的频繁序列挖掘算法FSM+。详细介绍了该算法的相关性质和基本理论,阐述了该算法的基本思想和实现伪码。在VC++6.0和单机的环境下,利用不同规模用户装机数据集和最小支持度比较了该算法与SPADE,FP-Growth算法的性能和准确性。实验证明,FSM+算法在小规模数据集下性能优势并不明显,但在大数据集下其计算性能分别是SPADE,FP-Growth的5倍和7倍多,挖掘结果与SPADE,FP-Growth算法相同。从而在实际网络规划过程中,快速计算信任度较高的频繁模式,并与人工经验干预相结合,来进一步保证预测路径准确有效。  相似文献   

7.
移动泛在感知设备的广泛普及为移动轨迹数据的大规模采集、存储与分析开拓了广阔的空间。通过对用户的移动轨迹数据进行分析挖掘,发现其中所蕴含的有价值的行为模式与特征,对于基于位置的服务(Location-based Service,LBS),城市交通管理,精准广告营销等领域均具有重要的价值。文中针对移动轨迹频繁模式规模过大、信息冗余问题定义了频繁闭合移动轨迹模式,以经典闭合序列模式挖掘算法为基础提出了适应于移动轨迹数据的频繁闭合模式Close Traj算法,分别通过对仿真数据与真实数据的实验测试,结果显示文中所提出的Close Traj算法对于频繁闭合移动轨迹模式挖掘问题具有较强的适用性,同时在运行效率方面具有显著优势。  相似文献   

8.
频繁序列模式挖掘算法   总被引:5,自引:0,他引:5  
为解决从数据库中挖掘长模式和支持度较低时可能遇到计算复杂度较高的问题,提出一种新的算法--EFSPAN(Effective Frequent Sequential PAtterN mining algorithm).算法采用了深度优先挖掘策略,并将基于前缀序列格的深度优先遍历与两种高效的剪枝策略相结合.实验结果表明:新算法在模式较长和支持度较低时,能使搜索空间中60%以上的节点免被搜索;从而大大缩小了搜索空间,降低了序列模式挖掘算法的计算复杂度.  相似文献   

9.
频繁序列模式挖掘算法Apriori的分析及改进   总被引:1,自引:0,他引:1  
本文对频繁序列模式挖掘算法Apriori的算法思想、步骤及缺点进行了详细的分析,并提出了改进的算法.  相似文献   

10.
针对应用射频识别(radio frequency identification,RFID)技术产生的海量数据,引入挖掘频繁路径的思想,提出挖掘频繁路径的算法MP(movement path)-mine.该算法通过构建MP-tree的形式,只须扫描数据库一次就可以挖掘出所有的频繁移动路径,便于快速向用户提供物品移动趋势方面的信息.理论分析和实验结果表明该算法性能非常有效.  相似文献   

11.
针对Apriori算法需要多次扫描数据库以及可能产生庞大候选集的瓶颈问题,提出了一种改进的频繁项目集挖掘算法,该算法仅通过一次数据库的扫描生成一个链表,以比特位的方式存储项目在事物数据库中出现的位置,并在不产生候选集的基础上通过逻辑运算与集合运算的直接生成频繁项目集。经过实例分析,结果表明该算法相对于Apriori算法,能够在保证准确率的基础上拥有更低廉的代价。  相似文献   

12.
基于集合运算的频繁集挖掘优化算法   总被引:1,自引:0,他引:1  
挖掘关联规则是数据挖掘中一个重要的课题,产生频繁项目集是其中的一个关键步骤。 提出了一种基于集合运算的频繁项目集挖掘算法,并将该算法与经典算法Apriori进行比较。该算法只需要对数据库扫描一遍。实验表明该算法的效率较好。  相似文献   

13.
数据流中一种有效的当前频繁序列挖掘方法   总被引:1,自引:0,他引:1  
给出了一种基于滑动窗口挖掘频繁序列算法。该算法给出了ε-近似序列集的定义,利用一种压缩的数据结构GSP-tree来存储和维护整个滑动窗口中各分区的近似序列集,并通过合并各分区的近似序列集来响应用户当前的查询请求。  相似文献   

14.
挖掘最大频繁项目集是许多数据挖掘中的关键问题.为克服早期基于Apriori的最大频繁项目集算法中的缺点,相继有多种挖掘最大频繁项目集方法被提出.其中对基于FP-tree的最大频繁项目集挖掘算法比较多,但对FP-tree中的结点的频度计数关注的很少.通过对FP-tree结构进行了仔细分析后,在FP-tree中结点的频度计数和集合理论的基础上,提出了一种新的最大频繁项目集挖掘算法USDMFIA(using set to discover maximum frequent itemsets algorithm).通过分析比较,显示此算法是有效的.  相似文献   

15.
频繁项目集发现算法Apriori的研究   总被引:3,自引:0,他引:3  
为了提高Apriori算法的效率,从减少数据库扫描次数的角度出发,提出了一种动态自适应的改进算法.通过比较,该改进算法有效地减少了数据库的扫描次数,明显地提高了Apriori算法的效率,当数据库中总项目数目较大时,该算法更为有效.  相似文献   

16.
针对传统数据流频繁项集计算中效率低、内存消耗大等问题,本文采用并行计算的思想设计了一种基于MapReduce的数据流频繁项集挖掘算法,首先,对进行数据分块压缩和传输,其次,将数据频繁项的计算分布在负载均衡的数据节点,可以有效保证数据的执行效率.最后通过一次调度处理合并各个节点产生的频繁项集并进行合并.理论分析和实验对比结果均表明,该算法对于并行处理数据流频繁项集的统计问题是有效可行的.  相似文献   

17.
提出了对基于频繁模式矩阵Fp-array的挖掘的改进算法。首先对各项的投影矩阵预处理划分成若干同维矩阵,并根据同维矩阵的权值对剩余未搜索项进行预先判断,进而对搜索最大频繁项目集进行有效剪枝,减少了搜索范围。经过实验和算法分析,证明了改进算法具有明显的优越性。  相似文献   

18.
基于FP-Tree的最大频繁项目集更新挖掘算法   总被引:4,自引:1,他引:4  
发现最大频繁项目集是多种数据挖掘应用中的重要问题.在应用中用户需要调整最小支持度,以发现更有用的最大频繁项目集.为此提出了一种最大频繁项目集更新算法(UMFPA),该算法通过对频繁模式树(FP-Tree)中的频繁项目头表(H Table)增加两个域,从而将减少在数据库不变而最小支持度变化的情况下的更新挖掘最大频繁项目集的费用.实验结果表明,算法在进行最大频繁项目集更新挖掘时具有很好的性能.  相似文献   

19.
提出一种最大频繁模式挖掘的改进算法(FP-Imax),该算法引入一种与FP-tree类似的结构MFI-tree来存储所有的最大频繁项目集,并采用有效的子集检查方法进行优化,降低了算法的时空开销,提高了挖掘效率。实验表明,与FP-Max相比该算法的挖掘速度快两2—3倍。  相似文献   

20.
针对关联规则下最大频繁项目集的特性,提出了一种快速挖掘最大频繁项目集的新算法MMFI(miningmaximumfrequentitemsets)。该算法摆脱了传统的经典算法Apriori及其变种情况下的自底向上的搜索策略,利用集合枚举树(set enumerationtree)的变形结构采取了自顶向下的新的搜索方式,并通过其独特的启发式判断策略、候选项目集的生成策略等,大大减少侯选项目集的生成,从而降低了CPU搜索时间,提高了挖掘效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号