首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
主流数据挖掘算法不能有效解决大规模数值数据集挖掘问题。提出了一种应用于大规模数值数据集改进的线性时间封闭项集挖掘(improved linear time closed item sets mining,ILCM)算法。ILCM算法使用能够提取属性共同变化量的渐进模式挖掘方法,借鉴LCM算法的前缀保留闭合扩展思想,通过深度优先搜索输出频繁封闭渐进项集结果。实验证明,相比传统挖掘算法,ILCM能够显著提高算法运行效率和降低内存空间占用;并且能够有效处理如DNA微阵列等实际大型数值数据集挖掘。  相似文献   

2.
DMBIT:一种有效的序列模式挖掘算法   总被引:1,自引:0,他引:1  
大量候选序列模式支持度的计算所带来的时间消耗是序列模式挖掘主要问题之一,为此提出了一种有效的序列模式挖掘算法:DMBIT(Data Mining Bitmap),该算法根据位索引表和Seq-list表的结构,采用渐进的事件扩展,事务扩展方法,通过有效的剪枝策略和"与"逻辑运算操作进一步缩小了频繁序列的搜索范围,同时通过序列列表ListX的生成加快了相应候选项支持度的计算,算法分析和实验结果表明,在大数据集环境下的DMBIT算法性能优越,能够明显加速数据库中最大频繁序列的生成.  相似文献   

3.
传统算法通过对标准生产数据集进行可替代模式分析来指导和优化智能生产,在给定阀值较大时,会产生大量冗余的候选项集,占用大量内存和算法执行时间。该文基于利润参数提出一种可替代封闭模式挖掘算法ECPM,首先定义可替代规则对数据进行预处理,其次依据标准dNC-Sets(the difference of Node Code Sets)数据结构特性确定各模式的dNC-Sets结构及各模式间的关系,最后根据已证明的可替代封闭模式定理挖掘出最优解,获得产品最优部件组合。实验结果表明,对比META算法和MERIT算法,在标准生产数据集中,ECPM算法在执行时间和内存消耗方面均有性能提升。  相似文献   

4.
研究工作者已经提出了许多对事务数据库中频繁模式、关联规则的挖掘算法.早期算法有Apriori算法,然而该算法利用候选项集找频繁项集,而候选项集的产生往往是非常耗时的.JianweiHan等人提出了一种改进的算法,FP-growth算法.该算法不产生候选项集,效率比Apriori算法提高了近一个数量级.在描述FP-growth算法的基础上,具体讨论了如何优化数据结构,有效的实现该算法.  相似文献   

5.
有效地进行频繁项挖掘一直以来都是数据挖掘任务中最为重要的组成部分。已有的大部分频繁项挖掘算法在数据项多及支持度低的情况下,算法的效率急剧下降。为了有效地解决此类问题,提出了一种采用双向十字链表结构的频繁项挖掘算法(two-way crossed list for frequent itemsets mining,TCLFI)。极大地降低了搜索空间,加快了频繁项的筛选过程,减少了所需保存的数据项个数,从而降低了时间复杂度,提高了频繁项的挖掘效率。实验通过真实数据集和合成数据集验证了算法的有效性和扩展性。  相似文献   

6.
Apriori算法是关联规则挖掘的经典算法,具有原理简洁、易编程实现等优点,得到广泛应用。针对该算法扫描数据库次数过多,产生大量冗余候选集的缺陷,在现有Apriori算法改进优化思想的基础上,结合矩阵、改进频繁模式树和计算候选集频数优化策略提出了一种改进的关联规则挖掘算法——MIFP-Apriori算法。实验表明,该算法能够将扫描数据库次数降低到一次,有效解决产生大量冗余候选集的缺陷,提高算法效率。  相似文献   

7.
为了减小常量条件函数依赖的搜索空间,提高挖掘效率,针对常量条件函数依赖挖掘算法CFDMiner,提出了一系列剪枝优化策略。理论研究发现,CFDMiner的输入——关系数据的全部开项集和闭项集对产生有效的常量条件函数依赖仍然存在很多无效、冗余的项集。从理论上证明了通过合理剪枝,选取开项集的子集与对应的闭项集,能够得到与原算法一致的结果。实验表明:相比原始算法CFDMiner,优化后的算法搜索空间更小,实际数据集上平均挖掘效率提高4~5倍。  相似文献   

8.
Fp-growth算法是当前挖掘频繁项目集算法中速度最快,应用最广,并且不需要候选集的一种挖掘关联规则的算法.但是,Fp-growth算法也存在着算法结构复杂和空间利用率低等缺点.在FP-tree结构的基础上提出了密集型数据最大频繁模式挖掘算法FP-DMax.算法FP-DMax只需要2次扫描数据库,在挖掘过程中不产生候选项集,大大提高了算法的时空效率.实验表明,算法FP-DMax在挖掘密集型数据最大频繁模式方面是高效的.  相似文献   

9.
在经典的频繁闭合项集挖掘算法中,如Closet与Closet+,当条件模式数据库很庞大时,频繁项集的数目将会急剧增长,算法的效率会逐步恶化,并且算法挖掘结果的有效性也随着大量冗余模式的产生而下降.本文首先针对传统的FP-tree的算法,给出了一种改进的FP—tree算法,然后在新算法的基础上,提出新的频繁闭合项集挖掘算法,该算法只需把FP-Tree中所有由叶子结点到根结点的路径遍历一遍,就可以得到各项的所有子条件模式基,避免了传统FP-tree算法在同一条路径上向前回溯比较的繁琐.实验表明优化后的算法避免了资源的耗费,减少了频繁闭合项集挖掘的运算开销,大大提高了数据挖掘的效率.  相似文献   

10.
协同过滤是目前电子商务推荐系统中应用最为广泛的一类推荐算法。随着系统用户和项目数量的急剧增加,传统的协同过滤算法已经很难满足各类系统的需求。为提高算法处理大规模数据的能力,重点研究SlopeOne协同过滤推荐算法。将其与关联规则挖掘相结合,并选择近邻用户数据对目标用户的未知评分项进行评分预测,在movielens数据集上的测试结果表明,改进后的算法能够较为显著的提高推荐质量,适用于处理大规模数据。  相似文献   

11.
由于在互联网、电信、生物信息、社会网络分析等领域可获得的链接丰富的数据日益增多,链接挖掘已经成为数据挖掘的研究热点。基于链接分类是链接挖掘的一个重要方向。在此以电信领域用户通话特征数据为对象,研究了基于链接分类技术及其在电信客户流失预测的应用方法,在提取并分析大规模客户呼叫图的极大团、结点膨胀率、结点聚集度等与节点稳定性相关的链接属性及其时变特征的基础上,提出了一种适合海量数据的基于链接的电信客户流失预测算法。实验结果表明,此算法较传统分类算法能提高客户流失预测性能,实现了基于链接分类方法的成功应用。  相似文献   

12.
Apriori算法是经典的关联规则挖掘算法,主要缺点是可能产生大量的候选集和需要多次扫描数据库.从幂集运算的角度提出了一种新的关联规则挖掘算法P_DM算法,实现了只需要扫描一次数据库就产生所有频繁集.实验证明这种算法在中小规模数据挖掘上效率优于Apriori算法.  相似文献   

13.
BP网络计算机优化的实现   总被引:1,自引:1,他引:0  
反向传播算法(B-P算法),是数据挖掘算法中最基本的算法之一。面对大量的数据,怎样选择数据结构,怎样优化参数的设置,怎样优化处理过程,对于此算法的性能将会十分重要。本文主要提出了对该算法的若干改进和优化。实验显示,这些改进和优化都能够在整体上提高算法的效率,能够正确、有效、快速地实现B-P算法。  相似文献   

14.
Clustering in high-dimensional space is an important domain in data mining. It is the process of discovering groups in a high-dimensional dataset, in such way, that the similarity between the elements of the same cluster is maximum and between different clusters is minimal. Many clustering algorithms are not applicable to high dimensional space for its sparseness and decline properties. Dimensionality reduction is an effective method to solve this problem. The paper proposes a novel clustering algorithm CFSBC based onclosed frequent hemsets derived from association rule mining. which can get the clustering attributes with high efficiency. The algorithm has several advantages. First, it deals effectively with the problem of dimensionality reduction. Second, it is applicable to different kinds of attributes, Third, it is suitable for very large data sets. Experiment shows that the proposed algorithm is effective and efficient  相似文献   

15.
针对传统数据流频繁项集计算中效率低、内存消耗大等问题,本文采用并行计算的思想设计了一种基于MapReduce的数据流频繁项集挖掘算法,首先,对进行数据分块压缩和传输,其次,将数据频繁项的计算分布在负载均衡的数据节点,可以有效保证数据的执行效率.最后通过一次调度处理合并各个节点产生的频繁项集并进行合并.理论分析和实验对比结果均表明,该算法对于并行处理数据流频繁项集的统计问题是有效可行的.  相似文献   

16.
对频繁模式增长(FP-Growth)算法进行了改进,用哈希头表代替头表.通过合并频繁模式树(FP-Tree)中支持数相同的结点,压缩了树的规模,有效地节省了空间.实验结果表明,改进后的算法在查找效率上有了大幅度的提高,可以更好地适用于大规模数据集的关联规则挖掘.  相似文献   

17.
分布式全局频繁项目集的快速挖掘方法   总被引:8,自引:1,他引:8  
针对传统的分布式全局频繁项目集挖掘算法存在大量的候选项目集,且求全局频繁项目集的网络通信代价过高等问题,提出了一种分布式数据库的全局频繁项目集快速挖掘算法(FDMA).该算法改进了频繁模式树(FP-树)的结构,将双向FP-树改为单向,每个节点只保留指向父结点的指针,减少了指针数,由此可节省1/3的树空间;同时通过传送用3个很小的数组表示的被约束子树,在此挖掘全局频繁项目集的过程中不再生成大量候选项目集或条件FP-树,从而减小了网络通信量,提高了挖掘效率.实验表明,所提算法的挖掘速度比传统的分布式数据库数据挖掘算法至少提高了1倍之多,随着数据库规模的增大,它的扩展性将更好.  相似文献   

18.
基于Rough集的决策树算法   总被引:1,自引:0,他引:1  
针对基于Rough集的经典分类算法值约简算法等不适合大数据集的问题,提出了基于Rough集的决策树算法。采用一个新的选择属性的测度——属性分类粗糙度作为选择属性的启发式,该测度较Rough中刻画属性相关性的测度正区域等更为全面地刻画了属性分类综合贡献能力,并且比信息增益和信息增益率的计算更为简单。采取了一种新的剪枝方法——预剪枝,即在选择属性计算前基于变精度正区域修正属性对数据的初始划分模式,以更有效地消除噪音数据对选择属性和生成叶节点的影响.采取了一种与决策树算法高度融合的简单有效的检测和处理不相容数据的方法,从而使算法对相容和不相容数据都能进行有效处理。对UCI机器学习数据库中几个数据集的挖掘结果表明,该算法生成的决策树较ID3算法小,与用信息增益率作为启发式的决策树算法生成的决策树规模相当。算法生成所有叶节点均满足给定最小置信度和支持度的决策树或分类规则,并易于利用数据库技术实现,适合大数据集。  相似文献   

19.
针对高维大数据不确定性的非均匀挖掘问题,提出一种基于不确定频繁模式树的模糊逻辑非均匀数据挖掘算法.首先,在考虑数据不确定性的前提下建立高维数据的区域连接演算(RCC)模型,并基于数据集合组元定义分析不确定数据集合的模糊距离;然后,采用不确定模式树对数据的非均匀特性进行均匀泛化处理,并给出了具体的实现步骤.仿真结果表明:文中方法有效地提升不确定非均匀数据集合在不同支持度情况下的挖掘效率.  相似文献   

20.
为了更为有效地挖掘复杂网络中综合影响力高的节点集、提高重要节点集挖掘算法的准确性,针对节点集中各节点在信息传播中不同程度的相互促进和相互抑制作用,基于DynamicRank算法设计了一种新的级联概率计算模型。通过增强贪心策略,优先从种子集邻居以外的节点中选取备选节点,减小种子集内重叠邻居对信息传播引发的抑制作用;利用级联概率计算模型,增强种子集对信息传播的级联促进作用。在4个实际网络上采用SIR模型进行了测试,实验结果表明,相较于已有重要节点挖掘方法H-index、Degree、DynamicRank、VoteRank和EnRenew,提出的算法挖掘出的节点集具有更高影响力。特别地,在Grid数据集上,本文方法挖掘出的种子集的传播范围比对比算法平均提升了49.3%。提出的算法针对信息传播概率和贪心策略的改进有利于重要节点集的挖掘和识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号