首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
Apriori算法是经典的关联规则挖掘算法,主要缺点是可能产生大量的候选集和需要多次扫描数据库.从幂集运算的角度提出了一种新的关联规则挖掘算法P_DM算法,实现了只需要扫描一次数据库就产生所有频繁集.实验证明这种算法在中小规模数据挖掘上效率优于Apriori算法.  相似文献   

2.
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有意义的关联。随着大量数据不停的收集和存储,从数据库中挖掘关联规则显得越来越有必要性,关联规则挖掘的Apriori算法是数据库挖掘的最经典算法并得到广泛应用,在介绍关联规则挖掘和Apriori算法的基础上,发现Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点。综述了Apriori算法的主要优化方法,并指出了Apriori算法在实际中的应用领域,提出了未来Apriori算法的研究方向和应用发展趋势。  相似文献   

3.
为了解决Apriori 算法的不足,提出了改进的Apriori算法:进行剪枝侯选项目集时,采用生成频繁项目集和删除具有非频繁子集候选同时进行的方法来减少多余子项目集的生成.改进的Apriori 算法大大提高了频繁项目集即关联规则生成的效率,运行时间不及原算法的十分之一,同时节省了大量的存储空间.最后利用改进的Apriori 算法对中医医案数据进行关联规则挖掘,获得了良好的效果.  相似文献   

4.
关联规则Apriori算法的改进   总被引:7,自引:0,他引:7  
Apriori算法是关联规则提取的经典算法,但存在一些不足之处。关联算法的研究主要集中在提高Apriori算法的效率上。本文分析了该算法并进行了改进,使得频繁集产生的同时精简事务集。这种算法及时去掉了不必要的数据,减少了数据运算,从而使算法更优化。  相似文献   

5.
Apriori算法是关联规则挖掘中的经典算法,一直是数据挖掘领域的研究热点。传统的Apriori算法由于产生过多的无用的候选项集以及需要多次扫描数据库导致在一定程度上限制了算法的效率。本文针对这一问题,提出一种新的RF-Apriori算法。该算法首先对数据进行二元处理;然后利用项集的反单调性减少候选项集的产生,从而提高算法效率。实验结果表明,RF -Apriori算法效率明显优于Apriori算法。  相似文献   

6.
在众多的关联规则挖掘算法中,Apriori算法是最为经典的一个,但Apriori算法有以下缺陷:需要扫描多次数据库、生成大量候选集以及迭代求解频繁项集。因而提出了一种新方法,使Apriori算法产生的候选项集再通过数据库查找是否为频繁项集,从而提高算法的效率。最后针对入侵检测系统形成关联规则。实验结果表明,改进后的算法...  相似文献   

7.
产生频繁项目集是关联规则挖掘中的一个关键步骤.在对Apriori算法分析的基础上,提出了一种基于集合和位运算的频繁项目集挖掘算法.该算法用位视图表示使用了每个项目的事务,通过对位视图进行位运算来计算每个项目集的支持数,避免了Apriori算法中多次扫描数据库的问题.  相似文献   

8.
Apriori算法是关联规则挖掘的经典算法,具有原理简洁、易编程实现等优点,得到广泛应用。针对该算法扫描数据库次数过多,产生大量冗余候选集的缺陷,在现有Apriori算法改进优化思想的基础上,结合矩阵、改进频繁模式树和计算候选集频数优化策略提出了一种改进的关联规则挖掘算法——MIFP-Apriori算法。实验表明,该算法能够将扫描数据库次数降低到一次,有效解决产生大量冗余候选集的缺陷,提高算法效率。  相似文献   

9.
Apriori算法存在候选集、频繁集产生效率低,丢失有趣强关联规则等问题,提出一种基于分辨矩阵可以采掘含负属性项强关联规则的改进算法,最后给出一个实际例子实现该算法.  相似文献   

10.
Apriori算法是经典的数据挖掘算法之一,它根据置信度和支持度对产生的频繁集进行选择,找出强规则.传统的Apriori算法需要产生大量的侯选集和多次数据库的扫描,存储和通信的开销巨大.云计算环境可以解决存储问题,所以针对Mapreduce的编程框架,提出一种适用于此模式的新关联规则算法,解决传统Apriori算法时间和空间上的缺点,提高挖掘效率.  相似文献   

11.
在近似算法领域,集合覆盖计数是研究的比较早和比较透彻的问题之一.文中结合第二类Stirling数,提出了一种构造有限集合上的集合覆盖的算法,并且讨论了它的正确性.该算法简单有效,可以在有限的计算资源下求得一个有限集合的覆盖计数的下界.  相似文献   

12.
关联规则挖掘算法研究   总被引:1,自引:0,他引:1  
详细研究了关联规则数据挖掘,分析了存在的问题和不足,提出了一种频繁项集增量算法,用于对Apriori算法进行改进.实验表明,改进算法在运行效率上要比Apriori算法快一个数量级.  相似文献   

13.
Feature selection is the pretreatment of data mining. Heuristic search algorithms are often used for this subject. Many heuristic search algorithms are based on discernibility matrices, which only consider the difference in information system. Because the similar characteristics are not revealed in discernibility matrix, the result may not be the simplest rules. Although differencesimilitude(DS) methods take both of the difference and the similitude into account, the existing search strategy will cause some important features to be ignored. An improved DS based algorithm is proposed to solve this problem in this paper. An attribute rank function, which considers both of the difference and similitude in feature selection, is defined in the improved algorithm. Experiments show that it is an effective algorithm, especially for large-scale databases. The time complexity of the algorithm is O(| C |^2|U |^2).  相似文献   

14.
针对海量数据聚类过程中,经典的K-均值聚类算法对其K个初始聚类中心点的选择以及数据集噪声十分敏感的问题,提出了一种针对海量数据考虑初始聚类中心点选择的聚类算法.该算法首先采用冒泡排序法对数据集进行排序,获取数据集的各维中心值组成第一个初始聚类中心点.其次,通过计算与第一个初始聚类中心点的欧式距离,对剩余候选初始聚类中心点进行优化选择,保证所有的聚类中心点均匀地分布在数据集密度较大的空间上,以此减少聚类过程中的迭代次数和提高聚类算法效率.最后,基于UCI(University of California,Irvine)中多个数据集,进行聚类算法对比实验.结果表明,在不降低聚类效果的前提下,该聚类算法的迭代次数平均降低到50%,所需的时间降低平均达10%,由实验结果还能推出,当点集的数目越多时,该算法就能表现出越明显的聚类优势效果.  相似文献   

15.
基于关系积的属性约简算法   总被引:1,自引:0,他引:1  
粗糙集的属性约简是一个NP难问题,目前尚无高效的算法.基于集合理论,提出了关系积概念和基于关系积的属性约简算法,把决策表的属性约简过程转化为关系积的运算,减小了对决策表的扫描次数,提高了属性约简的效率;算法采用自底向上和宽度优先的搜索策略,可确保找到最小属性约简集.结合实例,给出了算法的具体实现.  相似文献   

16.
基于粗糙-模糊神经网络的焊接图像缺陷识别   总被引:1,自引:0,他引:1  
针对焊接图像缺陷识别中提取的特征受噪声干扰比较严重以及现有的识别算法准确率低的问题,提出了一种基于粗糙模糊神经网络的缺陷识别算法。该算法充分利用了粗糙集的属性约简、模糊集的处理不精确数据以及神经网络的自学习、对任意函数逼近的优点,有效地解决了不确定建模过程中样本数据受到噪声干扰、模型结构难以确定的问题。仿真结果表明:该算法能有效地提高焊缝图像的缺陷识别能力。  相似文献   

17.
基于粗糙集理论的规则提取算法的研究   总被引:3,自引:0,他引:3  
简要介绍一种规则提取的算法 ,并通过对一数据集的分析来比较该算法与传统算法的区别 .  相似文献   

18.
在贪婪算法的基础上,通过测试需求的辅助,提出一种算法.此算法删除了地位低的测试需求,并且不断缩减测试用例的选择范围,以提高算法的效率.  相似文献   

19.
郑权等于1978年提出了积分水平集求总极值的方法,其主要特点有判别总极值的收敛准则,但其概念算法与Monte-Carlo随机投点的实现算法不匹配,易遗失总极值外,其实现算法收敛性至今未解决.该文在张连生、邬冬华等提出的修正算法的基础上,将积分型方法中的Monte-Carlo随机投点与确定性的数论方法相结合,以提高修正算法的计算效率,并在文中给出了这种从随机到确定性的积分型全局优化方法全局收敛性的证明.  相似文献   

20.
在中文文本分类中,由于中文词条总数较高,限制了中文文本分类算法的选择空间.特征选择是文本分类的一个核心研究课题.提出了一个优化的文档频(optimal document frequency,ODF),再结合粗糙集提出了一个新的基于辨识集的属性约简算法,最后把该属性约简算法同优化的ODF结合起来,提出了一个综合的特征选择方法.该综合选择方法首先使用优化的ODF进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后再利用所提出的属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该方法有较好的准确率和召回率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号