共查询到20条相似文献,搜索用时 10 毫秒
1.
杜戈王子 《湖南城市学院学报(自然科学版)》2013,(3):71-75
不确定性数据的频繁项集挖掘的算法—U-apriori算法采用逐层迭代搜索方法,使用候选项集来找频繁项集.分析了U-apriori算法的流程和实现过程,并通过实验对比得出U-apriori算法花费较少时间和空间的优点,最后针对该算法的缺点提出了改进思路.结果表明:U-apriori算法是最佳概率频繁模式挖掘方法之一. 相似文献
2.
高频独立模式对无相关属性选择有一定意义.给出挖掘频繁独立模式算法,并在标准数据挖掘数据集蘑菇数据上测试,得到蘑菇数据在一定度量下的所有频繁独立模式,实验结果表明了挖掘算法的有效性. 相似文献
3.
频繁序列模式挖掘算法 总被引:5,自引:0,他引:5
为解决从数据库中挖掘长模式和支持度较低时可能遇到计算复杂度较高的问题,提出一种新的算法--EFSPAN(Effective Frequent Sequential PAtterN mining algorithm).算法采用了深度优先挖掘策略,并将基于前缀序列格的深度优先遍历与两种高效的剪枝策略相结合.实验结果表明:新算法在模式较长和支持度较低时,能使搜索空间中60%以上的节点免被搜索;从而大大缩小了搜索空间,降低了序列模式挖掘算法的计算复杂度. 相似文献
4.
5.
频繁模式不能反映模式内部各项目之间的关联和相关关系,频繁关联模式挖掘与孥繁相关苎式兰苎已越来越受到人们的重视.按照相关模式定义,如果一个模式是相关模式,其超模式一定是相关模式,最小频繁相关模式挖掘将大大减少挖掘出来的数量,有利于用户分析.给出最小频繁相关模式挖掘算法,并在标准数据挖掘数据集蘑菇数据上测试,实验证明算法是正确有效的. 相似文献
6.
快速频繁序列模式挖掘算法 总被引:4,自引:1,他引:3
为解决从数据库中挖掘长模式可能遇到较高的计算复杂度问题, 提出一种新的算法FFSPAN. 传统上, 要判断一个序列是否频繁, 需要在原数据库中判断整个序列是否频繁; 而算法FFSPAN是通过在序列数据库中寻找一个频繁项或一个频繁项集来代替寻找一个完整的频繁序列, 而且FFSPAN算法每次扫描的数据库都是迅速减小的, 这使得算法在挖掘的序列模式越长时越有效. 在标准测试数据集上的实验结果表明, FFSPAN算法非常有效. 相似文献
7.
利用模式融合思想提出了一个空间co-location模式挖掘算法,该算法通过每次融合小模式来快速生成含有大量特征的巨型频繁模式,从而避开了大量的中间模式.并且,由于模式融合旨在产生近似解,因此又引进了一个质量评估模型,评估算法返回的模式. 相似文献
8.
石杰 《烟台大学学报(自然科学与工程版)》2015,(2):113-118
频繁模式挖掘是数据挖掘领域中一个重要的研究方向,目前已有很多算法被用于挖掘频繁模式.本文在研究FP-growth算法的基础上,提出一种新的频繁模式挖掘算法——QFP算法.首先对每一个频繁项建立一棵QFP树,进而根据设定的条件对每棵树进行挖掘,直到找出符合条件的频繁模式.实验证明该算法能够减少条件子树的生成数量,降低对内存空间的依赖和CPU的计算时间,从而提高关联规则挖掘的效率. 相似文献
9.
使用关联规则的方法来挖掘基因表达数据,在研究分析经典关联规则挖掘算法优缺点的基础上,立足于基因表达数据所呈现的新特征,提出一种基于BSC_tree的分段与运算基因表达数据频繁模式挖掘新算法BSC-AND.实验结果表明,与FP-growth和FIS算法相比,所提出的算法具有更低的时间复杂性. 相似文献
10.
《南京理工大学学报(自然科学版)》2016,(1)
为了适应由于进行添加、删除、修改操作而频繁变化的数据库以及加速支持度求解过程,该文提出了一种新的频繁模式挖掘算法。该算法将顾客的一次购买行为转化为比特串,通过对比特串的操作,逐渐更新事务集的典型集,从而适应目前数据库的频繁变化。典型集中包含了所有模式,根据支持度阈值可以从典型集中快速找到频繁模式。通过实例分析了该算法面对频繁变化数据库的过程,表明了该算法具有很强的适应数据库变化的能力,并能够根据给定的支持度阈值快速求出所需的频繁模式,仿真实验验证了该算法的有效性和可行性。 相似文献
11.
陈凤娟 《南阳理工学院学报》2018,(4)
不确定数据出现在越来越多的应用中,如WSN、RFID等领域,分析不确定数据能为用户决策提供重要参考,因此,不确定数据的数据挖掘工作受到越来越多的关注。不确定数据库的概率频繁模式挖掘是不确定数据挖掘的一个重要的研究内容,它是确定数据库中的频繁模式挖掘问题在不确定数据环境下的扩展研究,即挖掘在数据库中经常共同出现的模式。为了提高记录级不确定数据库的概率频繁模式的挖掘算法的效率,本文提出一种基于FP_Growth算法的概率频繁模式挖掘算法,并在不确定数据库上实验验证了算法的性能。 相似文献
12.
陈勇 《陕西理工学院学报(自然科学版)》2009,25(2)
针对MFP-tree挖掘算法的不足,给出了一个频繁模式挖掘算法EMFP.算法通过将事务数据库的每条事务支持度进行裁剪以及为EMFP-树的节点添加子树个数计数器等措施来提高EMFP-树的挖掘算法的效率.实验结果表明,EMFP-树的挖掘算法是一个高效的频繁模式挖掘算法,其性能优于MFP算法. 相似文献
13.
施一飞 《吉林大学学报(信息科学版)》2023,(1):174-179
针对在对分布式、多维数据流频繁模式挖掘算法研究时,没有删除多维数据流中的非频繁项集,存在平均处理时间长的问题,提出分布式多维数据流频繁模式挖掘算法。该方法根据人工神经网络特点,建立了人工神经网络模型,并对多维数据流训练,以达到提升挖掘效率的目的;并基于训练结果构造数据流频繁模式信息树,即频繁模式树(FR-tree:Frequent Pattern tree)。由于FR-tree中存在较多过期的多维数据流,所以需要对FR-tree剪枝,并删除非频繁项集,从而加快频繁模式计算速度,并采用分布式挖掘算法对全局FR-tree挖掘,从中取得多维数据流的频繁项集完全集,实现分布式多维数据流频繁模式的挖掘。通过对该方法的平均处理时间测试,验证了该方法的实用性。 相似文献
14.
从Web数据中挖掘频繁访问模式 总被引:7,自引:0,他引:7
提出了一种新的用户浏览行为模型,通过在Web日志挖掘中引入页面信息量参数,以Web页面文件大小与用户浏览时间的比值作为对页面关心程度的度量,将页面引用划分为导航目的与内容目的两种类型。在此基础上定义并实现了对应的内容事务识别方法。实际数据的挖掘结果证明了模型的适用性。 相似文献
15.
对关联规则挖掘问题建立了完全格描述并给出了问题规模下限,提出了一种基于搜索空间划分的项集频度计算模型.在对FP-树进行改造的基础上提出基于划分思想的频繁项集挖掘算法UPM,算法的项集频度计算和非频繁项目裁剪都基于空间划分的思想.性能实验表明,与FP-Growth算法相比,UPM算法的时空效率有较大提高. 相似文献
16.
基于改进FP-树挖掘最大频繁模式 总被引:3,自引:1,他引:3
由于挖掘密集型数据的频繁模式完全集非常困难 ,因而改进了传统的FP -树结构并提出了一种基于改进FP -树的最大频繁模式挖掘算法IFP -MAX ;通过引入后缀子树的概念 ,在挖掘过程中不用生成最大频繁模式候选集 ,大大提高了算法的时空效率。实验表明 ,IFP -MAX的挖掘速度比Miafia和GenMax快得多 相似文献
17.
基于约束的最大频繁模式的挖掘 总被引:2,自引:0,他引:2
频繁模式挖掘通常产生大量的挖掘结果,基于约束的最大模式挖掘成为目前研究的焦点.给出基于约束的频繁最大模式的定义和挖掘基于约束的频繁最大模式算法. 相似文献
18.
提出了一种基于模式增长的频繁模式挖掘算法(简称为PGMiner算法).这种算法是一种深度挖掘的算法,不产生任选项集,便于发现较长的模式,避免了Apriori和FP-growth方法存在的问题.通过一种简单的索引结构在映射数据库中不断地增加模式长度.这种索引结构占用较少的内存,使得这种基于内存的算法有很高的执行效率.采用现实数据集以及IBM人工数据集对PGMiner算法进行测试.试验结果显示,对于一般类型的特别是较为稀疏的数据集,PGMiner算法比Apriori和FP-growth方法有更好的性能. 相似文献
19.
在挖掘最大频繁项目集的过程中,通过改变最小支持度阈值可以挖掘更有用的最大频繁项目集,为此提出了一种最大频繁项目集更新挖掘算法UAMMFI(Updating Algorithm for Mining Maximal Frequent Itemsets)。算法基于改进后的频繁模式树结构,在更新挖掘过程中,不需产生候选项目集和条件模式树,并且充分利用先前已挖掘的最大频繁项目集中包含的信息,快速更新挖掘出最小支持度阈值变化后的最大频繁项目集。实验结果表明,算法能够高效更新挖掘最大频繁项目集。 相似文献
20.
为了提高半结构化文档数据流的挖掘效率,对原有挖掘算法StreamT进行了改进,提出了一种半结构化文档数据流的快速频繁模式挖掘算法--FStreamT.该算法针对利用集合存储候选频繁模式效率较低的缺点,采用枚举树存储候选频繁模式,可以有效地提高对候选频繁模式集合进行查找和更新的效率,同时利用频繁模式的单调性和枚举树的特点减小了维护负边界的搜索空间,从而提高了整个算法的效率.理论分析和实验结果表明,算法FStreamT与算法StreamT相比具有较高的效率,是有效可行的. 相似文献