首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
分布式系统中的元挖掘研究   总被引:1,自引:0,他引:1  
针对分布式系统中的数据挖掘问题,提出了一种新颖高效的分布式元挖掘方法。该算法只需在各自站点扫描局部数据库两次即可形成局部和全局频繁项集,并根据局部和全局频繁项集形成相应的关联规则集及元规则集。在形成元规则集时无需扫描各站点中的关联规则集,这样既减少了分布式系统中需要的通信交换的数据量,也减少了各站点中的扫描数据量。研究表明所提出的算法是有效的。  相似文献   

2.
面向个性化推荐的强关联规则挖掘   总被引:10,自引:2,他引:8  
提出了适用于个性化推荐的强关联规则的概念,并给出一种基于矩阵的强关联规则挖掘算法.强关联规则集合能够以较少数量的规则表示全部有效关联信息,便于管理和应用.给出的强关联规则挖掘算法只需对交易数据库进行一次扫描,在挖掘过程中不断删除非频繁项使矩阵规模逐渐减小,并且避免了对冗余规则的挖掘, 从而提高了挖掘效率.通过对三组数据的实验表明:强关联规则集合包括的规则数量平均仅为规则总数的26.2{\%},有效解决了规则数量过多的问题.  相似文献   

3.
针对关联规则数据挖掘中频繁项目集的二次挖掘问题,提出了一种能够解决当最小支持度发生变化而交易数据库不变情况下进行二次挖掘的改进算法(UMSA)。该算法充分利用频繁项目集的特性,通过新的拼接方法来减少候选项目集的生成,在扫描交易数据库确定k维频繁项目集时,采用在交易数据库中剔除无用的交易,达到不断减小交易数据库规模的目的,克服了一些算法中存在的漏采现象,并在一定程度上解决了非确定性问题。通过举例说明该算法的执行过程及其算法的正确性和有效性,并对其性能进行了分析。  相似文献   

4.
在线挖掘数据流滑动窗口中最大频繁项集   总被引:1,自引:0,他引:1  
相对于频繁项集,最大频繁项集的数目较少,挖掘最大频繁项集的算法具有较高的时空效率.提出了一种新的基于文法顺序FP-Tree的最大频繁项集单遍挖掘算法FPMFI-DS.该算法采用了一种混合搜索空间项顺序策略,并利用我们所提出的一种新的剪枝技术-"子集等价剪枝技术",有效缩小搜索空间的大小.基于该算法,提出了一种能够在线更新挖掘数据流滑动窗口中最大频繁项集的算法FPMFI-DS+.FPMFI-DS+算法能够在任意时刻都维护数据流当前窗口中的最大频繁项集.仿真实验表明,FPMFI-DS算法的效率接近于多遍挖掘算法FPMax*,并具有良好的可扩展性,FPMFI-DS+算法更新挖掘速度快.  相似文献   

5.
为提高关联规则挖掘算法的效率及其对大型数据集的适应性,提出了基于划分的带项目约束的频繁项集挖掘算法Partition CHS Miner。算法按照约束条件裁减数据集,并采用基于约束的超结构CHS(con-straint-based hyper-structure)存储数据。对大型数据集,先将其划分为多个不相交的数据子集,使子集的大小适合主存,然后在子集上采用基于超结构的带项目约束的挖掘算法挖掘出局部频繁项集,最后合并所有子集中的频繁项集形成全局的带约束的候选项集,计算出全局频繁项集。实验证明了算法的有效性。  相似文献   

6.
针对分布式系统,提出了自适应哈希链结构的频繁模式挖掘算法。该算法首先在每个站点产生局部频繁1-项集,再产生全局频繁1-项集,根据全局频繁1-项集产生各站点的投影数据库,在各个站点分别扫描投影数据库中的交易,并根据站点可用内存情况形成相应大小的哈希链结构。通过挖掘各站点的哈希链结构得到全局频繁项集。给出了基本步骤和挖掘算法。研究表明该算法不但效率高,而且适应性强。  相似文献   

7.
提出了通过逻辑蕴涵的演绎规则来构建频繁项集的简洁表示,而不是挖掘所有的频繁项,来降低频繁项集中的冗余性,并利用演绎规则来构建所有频繁项集的简洁表示,从而减少存取数据库和对项集进行计数的次数,最终提供一个更加紧凑的频繁项集输出.最后,通过试验说明了该方法的有效性.  相似文献   

8.
基于网络的数值关联规则挖掘方法   总被引:2,自引:0,他引:2  
关联规则 ( Association Rules)发现的是属性间的关系 .属性可以是逻辑型的 ,也可以是数值型的 .在从逻辑型属性描述的数据中发现关联规则方面已经有许多比较成熟的算法 ,而在数值型属性方面则不然 .将数值关联规则挖掘问题映射成逻辑关联规则挖掘问题是一种方便有效的方法 .本文给出了一个新的数值属性关联规则挖掘算法 ,该算法利用数据本身的特征决定对数值属性值域的划分 ,进而将划分后的所有区间映射为逻辑属性 (项目 ) ,在此基础上可以挖掘出更容易理解、更具有概括性的有效关联规则 .本文给出了一个发现频繁项目集搜索算法 ,并采用一种纵向数据库格式来简化项目集支持度的计算.  相似文献   

9.
提出了一个基于频繁模式树即FP-tree和支持度数组相结合的最大频繁项集挖掘算法,首先建立FP-tree,同时建立支持度数组,然后在此基础上建立最大频繁项集树MAXFP-tree,MAXFP-tree中包含了所有最大频繁项集,缩小了搜索空间,提高了算法的效率。算法分析和实验表明,该算法对稠密型数据集和稀疏型数据集均适用,并且特别适于挖掘具有长频繁项集的数据集。  相似文献   

10.
针对信用分类数据集中常见的高维性特征,本文基于特征袋装法和关联规则挖掘算法,构建了新的赋权特征选择集成模型AR-WSAB.该模型能根据频繁项集的支持度和置信度,对各特征的重要度进行测度,进而选择出各特征子集,训练子分类器,再通过集成得到最终结果.通过在贷款违约预测数据集上进行实证分析,结果表明该模型分类正确率相对于Bagging集成模型和PCA算法都有显著优势,所提方法能够有效处理高维性特征,并且在各分类算法上都具有普适性.  相似文献   

11.
Finding frequent itemsets is the key problem in association rules mining. A new algorithm based on the lattice theory and bitmap index for mining frequent itemsets is proposed. The algorithm converts the original transaction database to an itemset-lattice in the pre-processing, where each itemset vertex has a label to save its support, and the complicated task of mining frequent itemsets in the database is thus changed to the simpler one that searches vertexes in the lattice. The efficiency of the mining process is enhanced greatly. Since the support counting in the association rules mining incurs a high cost regarding the I/O, a bitmap index technique is used to speed up the counting process. To address the issue that the intact bitmap usually needs a big memory space for storage, the bit vector is partitioned into blocks, which can be encoded as a symbol. This makes the original bitmap more compact in storage and improve the support counting efficiency as well. Finally, experimental and analytical results are presented.  相似文献   

12.
Exceptional rules are often ignored because of their small support. However, they have high confidence, so they are useful sometimes. A new algorithm for mining exceptional rules is presented, which creates a large itemset from a relatively small database and scans the whole database only one time to generate all exceptional rules. This algorithm is proved to be quick and effective through its application in a mushroom database.  相似文献   

13.
改进的增量式关联规则维护算法   总被引:4,自引:0,他引:4  
在分析现有的关联规则算法 IUA的基础上 ,指出了该算法的不足和错误之处 ,并加以改正 ,进而提出了一种改进的增量式更新算法 EIUA. EIUA算法解决了在数据库 D不变的情况下 ,当最小支持度和最小置信度二阈值发生变化时如何高效更新关联规则的问题 .实验分析表明了新算法的有效性和优越性.  相似文献   

14.
为了发现数据库中的异常数据,提出了两个数据项集之间相关可信度的新概念,并研究了基于该度量的异常数据检测规则的计算算法,产生的规则适合于离散型属性孤立点的检测。在计算检测规则中,最小相关可信度阈值不需由用户指定,而是根据1〖CD*2〗数据项集的频率确定;利用相关可信度的性质,可以减小检测规则计算算法的时间复杂度。实验结果表明,采用该方法计算获得的相关规则进行异常数据检测,不仅效率较高,而且检测的准确率、查全率也较高。  相似文献   

15.
基于元学习技术的分布式采掘关联规则研究   总被引:3,自引:0,他引:3  
关联规则是数据采掘中的重要研究内容。本文利用元学习技术提出了在分布式交易数据库环境下,分布式采掘关联规则的一种方法和相应算法DMAR。该算法具有较高的采掘效率和较低的数据通信量。定义了衡量采掘算法效率的分布式因子g,并指出算法的采掘效率和数据通信量与g值的大小有关。最后通过实验验证了该算法的正确性和有效性。  相似文献   

16.
给出一个新的序列规则挖掘算法,该算法在挖掘规则以前将数据库预先存贮为序列邻接网络,在序列邻接网络中每个项目集顶点都有一个域来记录它的支持度,算法把频繁序列规则的发现问题转化为网络中的顶点搜索问题,大大提高了搜索过程的效率,为了有效地解决网络生成过程中的序列支持计算问题,采用了一种纵向的数据库表示格式。  相似文献   

17.
在分析和研究诸多经典关联规则挖掘算法或最大频繁项目集挖掘算法的基础上,提出了一种新的极大频繁项目集挖掘算法BOFPV_MMFIA算法.该算法引入频繁项目集向量FP-V,将极大频繁项目集的挖掘过程转化为频繁项目集向量FP-V的与运算过程.算法只需扫描数据库一次,克服了Apriori及其相关算法产生大量候选集和需多次扫描数据库的缺点.又不同于BOM算法,挖掘频繁k_项目集时,需要进行 次k个向量的与运算.因此,BOFPV_MMFIA算法的效率明显高于Apriori、DMFIA及BOM算法.  相似文献   

18.
在大型数据库中 ,数据不是静止的 ,新的记录需要不断地增加到旧的数据库中 ,而从旧的数据库中挖掘出来的关联规则必须加以维护 ,为此提出了一种关联规则更新算法。该算法既能有效地利用已经发现的知识 ,又能减少数据库的扫描次数 ,同时只需产生少量候选集。实验表明 ,该算法的执行效率比现有的典型更新算法高 ,是一种有实际应用价值的、高铲的关联规则更新算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号