首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
目的解决在关联规则挖掘中存在大量无用的候选项集和频繁项集以及效率不高的问题。方法提出了一种基于十字链表的关联规则改进算法。结果利用用户给定的条件和剪枝算法减少了候选项集的数量,再遍历十字链表确定频繁项集,结果表明算法提高了挖掘效率。结论基于十字链表的关联规则改进算法避免了重复扫描数据库,提高了挖掘效率。  相似文献   

2.
关联规则是数据挖掘中的一种重要模式,自1993年R.Agrawal引入关联规则概念和提出第一个关联规则算法以来,诸多研究人员对关联规则挖掘的算法进行了广泛的研究.但专门研究挖掘稀疏数据的有效算法较少.针对稀疏数据,提出了一个使用简单数据结构——链表的挖掘算法,与其它算法比较,实验结果表明是非常有效的.  相似文献   

3.
数据挖掘关联规则Apriori算法的优化   总被引:3,自引:0,他引:3  
关联规则挖掘研究是数据挖掘研究的一项重要的内容.Apriori算法是挖掘关联规则的经典算法,但存在一些不足之处.本文在Apriori算法基础上,提出了基于链表数据结构的关联规则改进算法.由于该算法只需对交易数据库进行一次检索,故能大量减少所需的I/O次数,提高了系统的性能.  相似文献   

4.
在已有的基于概念格的关联规则挖掘算法中,搜索频繁结点的范围太大,从而导致花费大量的时间来产生关联规则.针对这一不足,利用"索引链表"数据结构来辅助快速地找到所有的频繁结点,缩小了结点的搜索范围,降低了概念格中挖掘关联规则算法的复杂度.  相似文献   

5.
阐述了关联规则挖掘对象事务数据库的特性, 对关联规则挖掘的关键问题频繁项集的几种挖掘方法:Apriori算法、最大频繁项集的挖掘算法、基于频繁链表的频繁项集挖掘算法作了分析研究,并指出了频繁项集挖掘算法优化的必要途径  相似文献   

6.
在已有的基于概念格的关联规则挖掘算法中,搜索频繁结点的范围太大,从而导致花费大量的时间来产生关联规则。针对这一不足,利用“索引链表”数据结构来辅助快速地找到所有的频繁结点,缩小了结点的搜索范围,降低了概念格中挖掘关联规则算法的复杂度。  相似文献   

7.
阐述了关联规则挖掘对象事务数据库的特性,对关联规则挖掘的关键问题频繁项集的几种挖掘方法:Aptiori算法、最大频繁项集的挖掘算法、基于频繁链表的频繁项集挖掘算法作了分析研究,并指出了频繁项集挖掘算法优化的必要途径。  相似文献   

8.
一种基于十字链表的频繁项集挖掘算法   总被引:1,自引:0,他引:1  
在Apriori算法的基础上,提出一种基于十字链表的关联规则挖掘算法。该算法能够快速得到每个候选项的支持度,从而有效的发现频繁项集。通过与经典算法分析对比表明,该算法具有明显的优势。  相似文献   

9.
基于线性链表存储结构的Apriori改进算法   总被引:1,自引:1,他引:0  
Apriori是最有影响的挖掘关联规则频繁项集的算法。但是Apiori由于需要多次对数据库进行扫描,所以运行效率比较低。在Apriori算法的基础上,本文提出了一种基于线性链表的频繁项集挖掘算法,实验证明该算法能够有效提高执行效率。  相似文献   

10.
FP-Growth算法在关联规则挖掘中是最经典的算法,主要通过频繁模式树(FP树)避免生成候选频繁项目集.针对FP-Growth算法中耗费内存严重的问题,采用链表存储方式,给出了FP-Growth算法的实现方法,其中单个结点采用链表形式来产生,频繁模式树采用左孩子右兄弟的存储结构来组织.在此基础上利用索引表,实现了对频繁模式树中共同前缀结点的快速查找,提高了频繁模式树构造的效率,解决了FP树构造算法中数据存储的瓶颈问题.最后以天体光谱数据和城市土壤数据作为数据集分别对该算法进行测试,实验结果表明,该方法的构造效率要明显优于基于顺序结构的FP-Growth算法.  相似文献   

11.
基于集合运算的频繁集挖掘优化算法   总被引:1,自引:0,他引:1  
挖掘关联规则是数据挖掘中一个重要的课题,产生频繁项目集是其中的一个关键步骤。 提出了一种基于集合运算的频繁项目集挖掘算法,并将该算法与经典算法Apriori进行比较。该算法只需要对数据库扫描一遍。实验表明该算法的效率较好。  相似文献   

12.
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能.针对当前在最频繁项集挖掘方面的不足,改进传统的倒排表,并结合最小支持度阈值动态调整策略,提出一个新的基于改进的倒排表和集合理论的最频繁项集挖掘算法.另外,给出几个命题和推论,并把它们用于本文算法以提高性能,最后对所提算法进行实验验证.实验结果表明,该算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算法(NApriori算法,IntvMatrix算法)都好.  相似文献   

13.
在比较当前几种并行关联规则挖掘算法的基础上,为了解决CD、FDM、DDM算法的候选集和执行时间方面存在的问题,结合关联规则的性质定理,提出了一种改进的并行关联规则算法IPARM.在无共享的工作站机群上进行性能测试,采用改进并行算法的执行效率提高了,达到了算法优化的目的.  相似文献   

14.
关联规则算法是数据挖掘中的核心技术 ,本文给出了数据库中挖掘关系规则的一种新算法 ,该算法通过二次扫描 ,第一次将可能出现的频繁项目集加入到ISC中 ,第二次扫描采用逐步求精算法将频繁项目集加到项目集中 ,减少了数据库的扫描次数  相似文献   

15.
针对大型事务数据库中频繁集的多属性聚类问题,提出一种高效的频繁集聚类算法.以往聚类算法采用基于距离的计算方法,由于受到属性数据的制约,在频繁集挖掘中具有一定的限制.在属性聚类基础上,基于连接对频繁集进行聚类.在算法中先找出数据点的邻居和计算相似度,构造邻居矩阵;然后计算连接数目,确定邻居数目矩阵;最后通过设置判定函数和阈值确定聚类数.通过实验证明,算法能够不仅能有效地完成频繁集的多属性聚类问题,而且还可以进一步发现频繁集在某一层次的相关性.  相似文献   

16.
一种高效并行关联规则挖掘新算法   总被引:1,自引:0,他引:1  
提出了一种在微机集群上实现的高效并行算法。该算法利用矩阵理论中上三角矩阵的良好性质,通过数据库约简、投影等操作,在微机集群的各节点上开展并行挖掘,从而提高挖掘算法的效率和可扩性。在微机集群上的实验证明,该算法能大大提高关联规则的挖掘效率,并具有良好的可扩性。  相似文献   

17.
关联挖掘在耕地流失原因分析上的应用研究   总被引:1,自引:0,他引:1  
在传统算法的基础上,针对耕地流失原因分析时关心的规则后件只包含一个主要因素的特点,提出了改进的基于约束的频繁谓词集和关联规则生成算法,从而大大减少谓词集元素和无趣规则的数量,为该类问题提供了一个有效解决方法。实验证明该方法具有较好的有效性。  相似文献   

18.
本文提出了数据库中属性覆盖和项目集蜕化的概念,并由此引出了一种新的不产生候选集的关联规则挖掘算法。最后将这种新的算法与已有的具有代表性的算法进行比较,结果表明该算法执行效率较高。  相似文献   

19.
针对云计算环境下由于数据缺失导致关联规则发现误差较高的问题,提出一种基于张量分解的缺失关联规则分布式发现算法,从而建模关联规则、缺失数据并近似它们的置信度.利用Apriori算法进行局部数据相关以获得频繁项集,通过CANDECOMP/PARAFAC (CP)分解方法分解张量置信度,使用共轭梯度算法进行迭代以最小化近似张量的成本,当存在缺失数据的情况下,利用分布式算法将局部相关与全局相关结合发现缺失关联规则.仿真结果显示,算法的平均误差仅为5.55%,最大误差不超过10%,低于其他几种较新的缺失关联规则算法,相比基于聚类的关联规则算法,平均执行时间减少了16.5%.结果表明,所提基于张量分解的分布式算法在缺失数据的情况下,性能优于其他的关联规则算法,能更加有效地提供缺失规则置信度的近似解.  相似文献   

20.
在分析已有关联规则和挖掘算法的基础上,对频集发现算法Apriori进行了研究,详细地论述了该算法的实现过程及所涉及的诸多问题,并对该算法的缺点及如何优化进行了较为深入的讨论.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号