首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
时序关联规则的研究具有重要的现实意义,因而根据传统的FP-树思想,提出了一种基于改进的FP-树的时序关联规则挖掘的方法.根据FP-树的思想,将时间序列中的频繁项映射到树中,以降低频繁时序模式的搜索空间,该算法在挖掘过程中不用生成大量的频繁模式候选集,提高了时序关联规则的挖掘效率.  相似文献   

2.
针对时间序列,研究和分析时序关联规则挖掘,提出时序关联规则数据挖掘的基于滑动窗口和时序树特殊结构的新的挖掘算法,并利用该算法挖掘超过给定支持数阈值频繁时序,为用户的决策支持及趋势预测提供支持,并通过实验验证算法的有效性和实用性。  相似文献   

3.
对海量的时间序列进行处理,挖掘其背后蕴涵的价值信息具有重要的意义。本文结合了时序逻辑和数据挖掘的知识对基于FP_树的时序关联规则展开了研究,并在传统的算法基础上提出了一种改进算法。该方法不用生成大量的频繁模式候选集,从而提高了时序关联规则的挖掘效率。  相似文献   

4.
发现时序规则的有效时间段,即规则的分布,有助于对序列行为进行更深入的了解.论文介绍了一种时序规则分布的挖掘方法描述了相应的分割选择策略、频繁度量算法、知识表示生成方法、以及针对时间序列数据的规则分布挖掘系统的体系结构.该方法对于序列长度来说,时间消耗是线性增长的,并且支持在线的知识发现.使用人工生成数据与真实数据进行了实验,结果表明该方法可以有效地生成符合问题定义的规则分布表示,以应用于发现新奇的有用知识.  相似文献   

5.
频繁项目集挖掘用于发现项目之间的关联规则.为了高效求解面向大数据的频繁项目集,本文提出一种新的基于FP_Growth的频繁项目集并行挖掘算法NPFP_Growth(New Parallel algorithm based on FP_Growth),该算法对频繁模式树的存储结构进行改进,基于Map/Reduce并行计算模型,利用HDFS实现数据存储,在各自计算节点上构造局部频繁模式树,求解该局部频繁模式树中每个分支的最长全局频繁项目集;对于全局非频繁项目集,计算其支持数,发送至相应计算节点进行支持度统计,从而以较为简单的算法实现频繁项目集并行挖掘.实验表明,NPFP_Growth算法具有较高的计算效率和良好的可伸缩性.  相似文献   

6.
针对传统关联规则隐藏算法直接遍历数据集,而导致输入输出流资源浪费的问题,提出一种基于集合和剪枝原理的关联规则隐藏算法。该算法首先建立频繁模式树(FP-tree),利用后剪枝原理去除属性相同规则,减少了遍历原始数据集所耗I/O时间;然后通过建立集合来保存真实频繁序列,并以集合为单位隐藏关联规则,既保证数据集质量,又提高频繁序列挖掘效率。实验结果表明,该算法与GSP、SPADE算法相比较,不仅更好地保证了数据集的高质量,而且降低了20%~50%频繁序列挖掘时间,并在隐藏敏感规则上有较好的实用性。  相似文献   

7.
关联知识挖掘算法中一种广为人知的算法就是Aprior算法,之后所有关联规则挖掘算法的基本思想都是基于频繁项目集发现算法的基础上进行了改进.为了提高关联规则挖掘效率,首先回顾了基于图的关联规则挖掘算法;然后,在此基础上进行了改进,把关联规则挖掘中寻找频繁项集的问题转换为图中寻找完全子图的问题,通过在图中查找完全子图来寻找频繁项集.提出了一种基于图的关联规则挖掘改进算法,并且对原算法和改进的算法从时间和空间的性能进行了比较分析,得出改进的算法是有效可行的.最后从实验结果得出结论GenerateItemsets算法比DGBFIG算法优.  相似文献   

8.
设计了一种不同于传统关联规则挖掘算法(如Apriori算法等)频繁项集产生算法.该算法借鉴一般免疫算法思想,并从新的角度来看频繁项集的定义,避免了传统算法中存在的"项集生成瓶颈"问题.通过对mushroom数据的频繁项集挖掘的实验,与传统方法进行了比较,其结果表明,基于免疫算法的频繁项集挖掘算法在大数据集、低支持度情况下平均挖掘时间短.  相似文献   

9.
 针对现有拓扑关联规则挖掘算法不能够有效地提取长频繁约束拓扑关联规则,提出一种基于区间映射的约束拓扑关联规则挖掘算法,该算法适合挖掘带约束空间布局关系的长频繁拓扑关联规则;该算法用区间映射法的下行搜索策略产生候选频繁拓扑项目集,利用逻辑"与"运算计算拓扑关系事务的支持数.实验证明在挖掘长频繁约束拓扑项目集时,该算法比现有算法更快速更有效.  相似文献   

10.
Fp-growth算法是当前挖掘频繁项目集算法中速度最快,应用最广,并且不需要候选集的一种挖掘关联规则的算法.但是,Fp-growth算法也存在着算法结构复杂和空间利用率低等缺点.在FP-tree结构的基础上提出了密集型数据最大频繁模式挖掘算法FP-DMax.算法FP-DMax只需要2次扫描数据库,在挖掘过程中不产生候选项集,大大提高了算法的时空效率.实验表明,算法FP-DMax在挖掘密集型数据最大频繁模式方面是高效的.  相似文献   

11.
时态关联规则研究与应用   总被引:4,自引:0,他引:4  
传统关联规则挖掘很少考虑关联规则的时间适用性.时态关联规则是指带有时态约束的关联规则,每个关联规则都有着其成立的时间区域.结合其他算法的特点,提出了基于Fisher聚类的时态关联规则挖掘算法(TApriori算法),它能够动态地发现关联规则以及关联规则有效的时间区域.实验结果证明该算法是合理有效的.最后,结合具体CRM项目的特点,讨论了在CRM引入数据挖掘的体系结构,给出了一个应用.  相似文献   

12.
传统方法实现过程复杂、历史复杂时态数据的片面性,导致其无法全面地描述时态数据;且相似性计算无法准确匹配具有动态性与复杂性的时态数据,造成提取精度低。为此,提出一种新的分布式多空间数据库复杂时态数据提取技术。设计动态RBF神经网络,对分布式多空间数据库中未知动态进行识别和建模;通过建模结果完成对复杂时态数据的描述。依据加权关联规则与时态关联规则对支持度和置信度的定义,获取T-FS-tree加权时态关联规则中支持度和置信度。将复杂时态数据描述序列、最小支持度、最小置信度作为输入,将加权时态关联规则作为输出,建立T-FS-tree加权时态关联规则挖掘算法。按照向量计算获取加权时态频繁1项集以及频繁2项集,依据获取的加权时态频繁项集建立初始频繁项集树;依据初始频繁项集树获取全部时态频繁项集;通过获取的频繁项集产生加权时态关联规则。从所有关联规则中选择优先度高的规则,构建的复杂时态数据提取器,实现复杂时态数据提取。实验结果表明,所提方法复杂性低,提取结果更加全面、可靠,有很高的准确性。  相似文献   

13.
从大型事务数据库中发现关联规则是数据挖掘中的一个重要课题,其核心问题是挖掘频繁项集.经典Apriori算法是有效的挖掘频繁项目集的算法.在分析Apriori算法的基础上,提出了一种利用二维数组来代替算法中的哈希树的方法,可以迅速产生二阶频繁项目集,改善了Apriori算法的效率瓶颈,大大提高了算法的执行效率.  相似文献   

14.
在挖掘关联规则和序列模式过程中,用户往往需要多次调整最小支持度,才能获得有趣的关联规则和序列模式.现给出基于已存信息的知识发现更新方法———PSI算法和大PSI-seq算法,以提高挖掘知识的效率.  相似文献   

15.
数据挖掘方法可以处理庞大的日志审计数据,并更快地提取入侵模式.提取网络入侵模式所用的2个核心算法是关联规则算法和序列规则算法.它们被用于提取每个连接记录内部和记录间的特征模式.在原算法的基础上,采用向量标识频集的方法,使其较好地达到时间和空间的平衡.  相似文献   

16.
基于模式矩阵的FP-growth改进算法   总被引:10,自引:0,他引:10  
数据挖掘中关联挖掘算法比较典型的有Apriori和FP—growth算法.实验和研究证明FP—growth算法优于Apriori算法.但是针对大型数据库这两种算法都存在着较大缺陷,不仅要两次或多次扫描数据库,而且很难处理支持度和数据变化等关联规则更新问题.作者提出了基于模式矩阵的FP—growth改进算法,它至多扫描数据库一次,特别在更新问题上不用重新扫描数据库.通过实验结果分析,验证了这种改进算法相对于原有FP—growth算法的优势,特别在大数据集下,大大降低了挖掘的时间复杂度.  相似文献   

17.
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有意义的关联。随着大量数据不停的收集和存储,从数据库中挖掘关联规则显得越来越有必要性,关联规则挖掘的Apriori算法是数据库挖掘的最经典算法并得到广泛应用,在介绍关联规则挖掘和Apriori算法的基础上,发现Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点。综述了Apriori算法的主要优化方法,并指出了Apriori算法在实际中的应用领域,提出了未来Apriori算法的研究方向和应用发展趋势。  相似文献   

18.
摘要 为了增加电子商务网站的销售额,分析了商品推荐在电子商务系统中的作用,研究了数据挖掘中的正负关联规则挖掘技术的特点,提出了一种新的正负关联规则挖掘算法。新算法通过使用旋转数据库和位运算减少了扫描原始数据库的次数,加快了挖掘速度。另外,新算法在挖掘正规则的同时,利用负规则裁减掉无效规则,得到的结果更符合用户的购物行为。通过测试得出新算法比传统的Apriori算法执行时间更短,商品推荐更精确。  相似文献   

19.
关联规则挖掘主要用来发现数据库中存在的频繁项集.利用权值标识项目的重要程度,提出一种新的关联规则——加权关联规则的挖掘.由于项目权值的引入,Apriori性质不再成立,频繁项集的子集不再一定是频繁的.为此,提出k-最小支持数的概念,对原有Apriori算法进行改进.该算法能够挖掘出现频率小但是带来更大利润的项目,使得挖掘出的关联规则更加满足决策者的需求,也更加符合实际需要.  相似文献   

20.
为了便于用户浏览网页信息,基于全置信度关联分析,提出了一种网页层次聚类的方法。该方法采用向量空间模型表示网页文档,将文档看成事务,文档的词汇视为事务中的项,根据关联挖掘算法发现文档之间的强关联规则产生基本类,然后利用图划分的算法完成网页文档的层次聚类。在关联规则产生过程中采用全置信度量发现强关联模式,规则的产生不受支持度阈值设置的影响,即使支持度闽值设置为零,也能发现强关联模式,有效地消除了弱相关的交叉支持模式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号