首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
数据挖掘算法对于支持度改变及数据集更新的适应性一直都是一个难点.本文根据数据集逐步增加的增量式方法,映射事务模式于线性空间中进行挖掘,并借助了图像在操作系统中显示及存储的特点,提出了一种新的增量式数据挖掘算法IPM-DM.同时,对比分析了其中两种模式映射方法,并与同类算法比较,经过实验证明,算法IPM-DM是有效且可行的.  相似文献   

2.
利用FP-tree算法产生的知识库,对关联规则的增量式更新问题提出了IUA_FPKB新算法.该算法可以有效地利用知识数据库中保留的频繁模式树,减少了对原挖掘数据库和更新后的数据库的扫描次数,提高了算法的运行效率.  相似文献   

3.
主流数据挖掘算法不能有效解决大规模数值数据集挖掘问题。提出了一种应用于大规模数值数据集的线性时间封闭项集挖掘改进(Improved Linear time Closed Itemsets Minner, ILCM)算法。ILCM算法使用能够提取属性共同变化量的渐进模式挖掘方法,借鉴LCM算法的前缀保留闭合扩展思想,通过深度优先搜索输出频繁封闭渐进项集结果。实验证明,相比传统挖掘算法,ILCM能够显著提高算法运行效率和降低内存空间占用,并且能够有效处理如DNA微阵列等实际大型数值数据集挖掘。  相似文献   

4.
针对在关联规则的实际挖掘中,由数据快速增加所造成的大数据问题和增量更新问题?在快速更新频繁模式树算法(fast updated frequent pattern tree,FUFP - tree)的基础上,引入MapReduce 编程模型,提出了一个面向大数据的并行的关联规则增量更新算法(parallel fast updated frequent pattern tree,PFUFP - tree)?该算法通过构建原始事务数据的分块索引,从而使得在每次增量更新时,能够最小化地扫描原始事务数据库,提高了挖掘效率;同时采用动态负载均衡的项目分组策略来优化并行计算过程中的项集分组问题,从而保证分布式集群中节点之间的负载均衡;实验结果证明,提出 的算法是有效的和高效的,适用于动态增长的大数据环境?  相似文献   

5.
针对原始数据库中增加数据时如何更新规则的问题,提出并应用了一种基于权值的序列模式更新算法UW IUA。该算法利用权值来归约子序列集和利用知识数据库中保留的最小非大序列集产生新的候选序列集,避免了重复遍历原始信息库而造成数据量太大的问题,从而缩短程序运行时间和节约数据存储空间,较好地改进了算法性能。实验结果证明UW IUA算法的效率高于IUA算法。  相似文献   

6.
针对光纤接入(fiber to the x,FTTx)网络规划中频繁路径挖掘问题,在经典算法FP-Growth,SPADE的基础上,结合格理论,利用频繁项集扩展枚举树作为搜索空间,并引入位图方便扩展运算和支持度计算,提出了一个改进的频繁序列挖掘算法FSM+。详细介绍了该算法的相关性质和基本理论,阐述了该算法的基本思想和实现伪码。在VC++6.0和单机的环境下,利用不同规模用户装机数据集和最小支持度比较了该算法与SPADE,FP-Growth算法的性能和准确性。实验证明,FSM+算法在小规模数据集下性能优势并不明显,但在大数据集下其计算性能分别是SPADE,FP-Growth的5倍和7倍多,挖掘结果与SPADE,FP-Growth算法相同。从而在实际网络规划过程中,快速计算信任度较高的频繁模式,并与人工经验干预相结合,来进一步保证预测路径准确有效。  相似文献   

7.
为了解决缺省关联规则的增量挖掘问题,在算法DRMBAR的基础上,结合粗糙集理论及频繁模式树结构,提出了一种基于关联规则的缺省规则更新算法IADRBAR,该算法主要考虑最小支持度发生变化时缺省规则的更新问题,即在新的最小支持度下,如何高效地生成新的关联规则. IADRBAR在最坏的情况下仅须扫描决策表一遍,并利用上一次已经挖掘出的频繁项目集及关联规则,有效地提高缺省规则的更新效率.理论分析和实验结果表明算法是有效可行的.  相似文献   

8.
提出了一种基于模式增长的频繁模式挖掘算法(简称为PGMiner算法).这种算法是一种深度挖掘的算法,不产生任选项集,便于发现较长的模式,避免了Apriori和FP-growth方法存在的问题.通过一种简单的索引结构在映射数据库中不断地增加模式长度.这种索引结构占用较少的内存,使得这种基于内存的算法有很高的执行效率.采用现实数据集以及IBM人工数据集对PGMiner算法进行测试.试验结果显示,对于一般类型的特别是较为稀疏的数据集,PGMiner算法比Apriori和FP-growth方法有更好的性能.  相似文献   

9.
基于改进型FP-Tree的分布式关联分类算法   总被引:1,自引:0,他引:1  
传统的信息挖掘技术已经无法满足大数据环境下日益复杂的应用需求,而分布式数据挖掘技术是解决这个难题的一种手段,因此提出了基于改进型频繁模式树(FP-Tree)的分布式关联分类算法。首先,在各局部节点优化FP-Tree。生成局部条件模式树(CFP-Tree),再通过各节点间传送CFP-Tree构建全局CFP-Tree;其次,在挖掘全局CFP-Tree时通过计算显著度来获取初始的全局显著分类规则;最后,利用剪枝策略选取一个较小规则集来构造全局的关联分类器。实验结果表明该算法能够有效降低网络通信量,提高信息挖掘效率,同时保证剪枝的质量和规则的统计显著性,提高分类的精确性。  相似文献   

10.
频集挖掘是关联规则挖掘的关键步骤,它对强规则、相关分析和时间序列有着重要的意义.常用的频集算法包括Apriori和FP-G rowth.为了提高算法效率,提出了一种基于D iffset的混合算法———D iffsetHybrid,该算法根据数据集的稀疏程度决定采用D iffset的某种形式来挖掘频集,减少了存储空间,提高了算法效率.试验表明,该算法对于稀疏数据集和稠密数据集都有良好的计算性能.  相似文献   

11.
地震属性可以用来解释与预测地质构造,因此地震属性被广泛地运用在煤矿地质构造的识别。但一般情况下,勘探区中无构造区域与有构造区域分布不均衡,无构造区域远远多于有构造区域。机器学习中,传统的分类器更习惯于偏向多数类,这使得如何有效地识别出构造体成为一个难题。为了解决这一问题,提出了一种针对不平衡数据集的改进极限梯度提升(extreme gradient boosting, XGBoost)构造识别方法。该方法的原理是,首先,以基于三维地震勘探成果数据体提取的12种地震属性为数据集特征,以实际揭露后的地质构造为数据集标签构建多属性数据集,然后以特征对标签的相关性为标准,过滤掉冗余的特征;其次,将边界样本分类算法(boundary sample classification, BSC)与合成少数类过采样技术(synthetic minority over-sampling technique, SMOTE)相结合形成BSC-SMOTE算法。用BSC-SMOTE算法对原始数据集进行平衡,再利用平衡后的数据集训练XGBoost分类器,并用贝叶斯优化(Bayesian optimization, B...  相似文献   

12.
为了提高半结构化文档数据流的挖掘效率,对原有挖掘算法StreamT进行了改进,提出了一种半结构化文档数据流的快速频繁模式挖掘算法--FStreamT.该算法针对利用集合存储候选频繁模式效率较低的缺点,采用枚举树存储候选频繁模式,可以有效地提高对候选频繁模式集合进行查找和更新的效率,同时利用频繁模式的单调性和枚举树的特点减小了维护负边界的搜索空间,从而提高了整个算法的效率.理论分析和实验结果表明,算法FStreamT与算法StreamT相比具有较高的效率,是有效可行的.  相似文献   

13.
针对序列模式挖掘中的增量挖掘问题,提出一种序列模式更新算法ISPBP.算法引入序列数据库结构来存储从原始数据库中挖掘出的所有项、最大频繁模式以及它们的支持数,采用间接拼接方法,只需处理增量数据库,避免了对更新后数据库的重新计算.对于因增量数据库新产生的频繁模式,利用了在增量数据库中出现的频繁项集来减小投影数据库,进一步提高了算法的效率.理论分析和实验表明,算法是有效可行的,并且增量数据库越大,算法在效率上的优越性越明显,算法ISPBP优于传统增量式更新算法.  相似文献   

14.
大型数据库中的高效序列模式增量式更新算法   总被引:7,自引:1,他引:7  
提出一种称为FIMS(fast incremental mining of sequential patterns)的序列模式增量式更新算法,处理因数据库的更新而引起的序列模式的维护问题。主要思想是利用原先的序列模式挖掘结果,通过建立一个投影数据库来减少对整个数据库的扫描次数和侯选序列的生成,从而提高挖掘的效率。实验结果显示在更新数据量远小于整个数据库的大小时,FIMS算法的性能优于GSP算法4-7倍。  相似文献   

15.
研究分布式环境下约束性关联规则更新问题,包括数据库中事务增加和删除2种情况.引入向导集的概念,提出基于全局局部模式的约束性关联规则增量式更新算法DUCAR,其中包括局部约束性频繁项目集更新算法ULFC和全局约束性频繁项目集更新算法UGFC.该算法充分利用原先的挖掘结果提高更新效率,首先从最高维的频繁n项目集进行更新,在更新过程中考虑约束条件,结合剪枝算法,生成较少数量的满足约束条件的候选项目集.将该算法用Java加以实现,采用多组数据对此算法的性能进行测试,并与其他算法作对比实验,实验结果表明,该算法是高效可行的.  相似文献   

16.
To alleviate the scalability problem caused by the increasing Web using and changing users' interests, this paper presents a novel Web Usage Mining algorithm-Incremental Web Usage Mining algorithm based on Active Ant Colony Clustering. Firstly, an active movement strategy about direction selection and speed, different with the positive strategy employed by other Ant Colony Clustering algorithms, is proposed to construct an Active Ant Colony Clustering algorithm, which avoid the idle and "flying over the plane" moving phenomenon, effectively improve the quality and speed of clustering on large dataset. Then a mechanism of decomposing clusters based on above methods is introduced to form new clusters when users' interests change. Empirical studies on a real Web dataset show the active ant colony clustering algorithm has better performance than the previous algorithms, and the incremental approach based on the proposed mechanism can efficiently implement incremental Web usage mining.  相似文献   

17.
有效地进行频繁项挖掘一直以来都是数据挖掘任务中最为重要的组成部分。已有的大部分频繁项挖掘算法在数据项多及支持度低的情况下,算法的效率急剧下降。为了有效地解决此类问题,提出了一种采用双向十字链表结构的频繁项挖掘算法(two-way crossed list for frequent itemsets mining,TCLFI)。极大地降低了搜索空间,加快了频繁项的筛选过程,减少了所需保存的数据项个数,从而降低了时间复杂度,提高了频繁项的挖掘效率。实验通过真实数据集和合成数据集验证了算法的有效性和扩展性。  相似文献   

18.
快速频繁序列模式挖掘算法   总被引:4,自引:1,他引:3  
为解决从数据库中挖掘长模式可能遇到较高的计算复杂度问题, 提出一种新的算法FFSPAN. 传统上, 要判断一个序列是否频繁, 需要在原数据库中判断整个序列是否频繁; 而算法FFSPAN是通过在序列数据库中寻找一个频繁项或一个频繁项集来代替寻找一个完整的频繁序列, 而且FFSPAN算法每次扫描的数据库都是迅速减小的, 这使得算法在挖掘的序列模式越长时越有效. 在标准测试数据集上的实验结果表明, FFSPAN算法非常有效.  相似文献   

19.
Immunodominance and clonal selection inspired multiobjective clustering   总被引:1,自引:0,他引:1  
The biological immune system is a highly parallel and distributed adaptive system. The information processing abilities of the immune system provide important insights into the field of computation. Based on immunodominance in the biological immune system and the clonal selection mechanism, a novel data mining method, Immune Dominance Clonal Multiobjective Clustering algorithm (IDCMC), is presented. The algorithm divides an individual population into three sub-populations according to three different measurements, and adopts different evolution and selection strategies for each sub-population. The update of each sub-population, however, is not carried out in isolation. The periodic combination operation of the analysis of the three sub-populations represents considerable advantages in its global search ability. The clustering task is a multiobjective optimization problem, which is more robust with respect to the variety of cluster structures of different datasets than a single-objective clustering algorithm. In addition, the new algorithm can determine the number of clusters automatically, which should identify the most promising clustering solutions in the candidate set. The experimental results, using artificial datasets with different manifold structure and handwritten digit datasets, show that the IDCMC outperforms the PESAII-based clustering method, the genetic algorithm-based clustering technique and the original K-Means algorithm in solving most of the problems tested.  相似文献   

20.
针对人群密度估计算法中场景的人群遮挡、尺度光照变化、噪声和低分辨率等问题,提出了一种结合局部二值熵值纹理特征(ELBP)与深度残差网络的人群密度估计算法。该算法首先在原始RGB人群图像上提取LBP特征;然后通过计算邻域像素点的平均信息熵模式构建ELBP纹理特征;随后基于ELBP纹理特征构建了一个深度为18层的深度残差网络;最后形成了对人群密度估计的end-to-end模式。为验证算法的可行性和有效性,在开源的人群密度估计数据集上进行实验。首先邀请10位专家对开源的数据集进行有效的人群聚集标注作为真实输出标签;随后采用研究提出的算法对人群密度完成估计,并与真实结果进行比较。另外,在三种不同的特征和三种不同的机器学习模型上进行了横向比较。实验结果表明,提出的ELBP纹理特征能够很好地应对噪声和低分辨率问题;深度残差网络则能够解决人群遮挡、尺度光照变化的问题。与传统算法相比,提出的算法能够提升人群密度估计的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号