首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
现有关联规则挖掘算法都是在频繁项集基础上进行挖掘,关于非频繁项集的资料很少.特别是在研究负关联规则后,非频繁项集因包含重要的负关联规则而变得非常重要.针对这一问题,在多支持度算法的基础上提出了一种新的算法模型,能够在挖掘频繁项集的同时得到非频繁项集,实验结果表明了该算法的有效性.  相似文献   

2.
提出了针对数据水平分布的分布式数据集下的全局最大频繁项集更新挖掘算法(UDMFI),用于解决当最小支持度阈值发生变化时全局最大频繁项集的更新挖掘问题.通过提出的带项目头表的频繁模式树(HFP-Tree)来存储数据,然后根据最小支持度阈值变小时,原最大频繁项集的集合中的元素一定是新最大频繁项集的集合中某些元素的子集的特性,以及最小支持度阈值变大时,原最大频繁项集中的一些最大频繁项集将可能不再是新最大频繁项集的集合中的最大频繁项集的特性,充分利用已挖掘的结果,从而减少挖掘过程中的费用.实验结果表明该算法具有较好的效率.  相似文献   

3.
为了解决负关联规则挖掘中包含负项目的频繁项集数量爆炸问题,引入过频繁项集的概念,证明过频繁项集及其所有超集均不可能产生有趣的关联规则。在频繁项集生成过程中,必须对项集中包含负项目的个数进行限制。使用最小支持度、最大支持度、项集中最多包含负项目的个数2个参数来约束频繁项集生成过程的算法。实验结果表明:所增加的两个参数是必要的,特别是当数据集中所包含的项目个数比较多时,只有恰当地设置两个额外参数,才能够保证挖掘过程的正常进行。  相似文献   

4.
负关联规则挖掘中的频繁项集爆炸问题   总被引:4,自引:0,他引:4  
为了解决负关联规则挖掘中包含负项目的频繁项集数量爆炸问题,引入过频繁项集的概念,证明过频繁项集及其所有超集均不可能产生有趣的关联规则。在频繁项集生成过程中,必须对项集中包含负项目的个数进行限制。使用最小支持度、最大支持度、项集中最多包含负项目的个数2个参数来约束频繁项集生成过程的算法。实验结果表明:所增加的2个参数是必要的,特别是当数据集中所包含的项目个数比较多时,只有恰当地设置2个额外参数,才能够保证挖掘过程的正常进行。  相似文献   

5.
通过指定期望结果项集数量挖掘top-k频繁项集,可解决频繁项集挖掘中支持度阈值难以设定的问题.由于能在较短的时间内得到足够多的精确结果,因此利用启发式方法挖掘项集的工作受到了越来越多的关注,但利用启发式方法来挖掘top-k频繁项集却鲜有研究.提出了一种基于交叉熵的top-k频繁项集挖掘算法KCE.首先,给出了将交叉熵应...  相似文献   

6.
设计了一种不同于传统关联规则挖掘算法(如Apriori算法等)频繁项集产生算法.该算法借鉴一般免疫算法思想,并从新的角度来看频繁项集的定义,避免了传统算法中存在的"项集生成瓶颈"问题.通过对mushroom数据的频繁项集挖掘的实验,与传统方法进行了比较,其结果表明,基于免疫算法的频繁项集挖掘算法在大数据集、低支持度情况下平均挖掘时间短.  相似文献   

7.
基于FP-tree的最大频繁项集挖掘算法   总被引:1,自引:0,他引:1  
现有的最大频繁项集挖掘算法在支持度阈值较大情况下已达到较高性能,但在支持度阈值较小时,由于候选项集的快速增长,其性能往往不理想。文章提出了一种基于频繁模式树(FP-tree)存储结构的最大频繁项集挖掘算法——DMFIF算法,将FP-tree各分枝作为初始候选项集,并按维数和支持度递减排序,结合子集剪枝策略,自顶向下搜索挖掘最大频繁项集。实验结果表明,该算法在低支持度阈值下稠密数据集中挖掘长模式具有较好性能。  相似文献   

8.
挖掘加权频繁项集是多种数据挖掘应用中的关键问题,为提高传统加权频繁项集挖掘算法的性能,在研究概念格模型和差集Diffsets理论的基础上,构建一种利用差集的加权频繁项集格结构,该格结构通过差集性质快速计算加权支持度,满足向下封闭特性,更有利于高效生成加权频繁项集.最后给出了相应的FWIL-Diffsets构造算法,该算法仅对数据库进行一次扫描,通过性质定理有效减少项集生成中的计算量.研究结果表明:该方法能显著提高生成加权频繁项集的效率.  相似文献   

9.
针对关系型数据中多维敏感属性隐私差异所引起的隐私保护效用降低问题,提出了一种能有效表达多维敏感属性隐私差异的隐私保护数据发布方法.基于一种多维桶分组技术(MSB)对数据集的多维敏感属性隐私差异以及记录价值进行量化区分,给出记录分组优先级参数的计算方法,进而可实现基于记录分组优先级参数多维桶记录分组(TPSB)算法的隐私保护数据发布.实验结果表明:在权重参数合理赋值条件下,该方法在保证数据发布效率的同时可有效提升数据发布的质量.  相似文献   

10.
针对当前的隐私保护关联规则挖掘算法在应用中存在的一些不足,如:在算法效率与计算精确度之间顾此失彼,提出了基于安全多方计算方法与随机干扰方法相结合的PPARMSR挖掘算法.该方法结合了安全多方计算方法的精确性和随机干扰方法的高效率,使用项集随机干扰矩阵同时干扰多属性,且兼顾它们的相关性,提前对候选频繁项集的剪枝,减少安全多方计算的处理量.通过试验验证了PPARMSR算法在保持隐私度的同时,还能够在计算精确度与运行效率之间实现较好的折中效果.  相似文献   

11.
仲波  张远平 《科学技术与工程》2006,6(24):3863-38663870
基于随机响应技术,提出了一种在保护隐私的关联规则挖掘中对包含三个属性值的序数型数据进行伪装的方法.设计了在伪装的数据集上进行挖掘的算法;分析了算法的安全性及复杂度。并通过实验表明,该算法在伪装的数据集上挖掘出来的规则与原规则相比,相对误差不超过5%。  相似文献   

12.
一种基于粒计算的知识隐藏方法   总被引:1,自引:1,他引:0  
对数据中蕴涵的敏感知识的隐藏与保护是私有保护数据挖掘中重要一个研究课题。粒计算具有在不同的粒度层次上进行问题求解的能力。本文讨论了基于粗糙集粒计算模型的数据中知识隐藏与保护方法。首先,介绍了不完备信息系统下的相容关系、相容信息粒和信息粒度;其次,提出基于粒计算的知识隐藏与保护方法;最后,通过具体实例和在真实数据集上的测试表明了所提出方法的可行性。  相似文献   

13.
针对隐私保护数据挖掘中的维数灾难问题,提出一种基于随机投影技术的隐私保护算法.该算法通过定义l投影扰动和Prevent-Ω数据集的概念,构造一种根据投影维数的不同,投影矩阵的稀疏度也相应变化的稀疏投影数据扰动,增加了数据的安全性.实验结果表明,在保护数据隐私的前提下,该算法能有效保证数据挖掘应用中的数据质量.  相似文献   

14.
在挖掘最大频繁项目集的过程中,通过改变最小支持度阈值可以挖掘更有用的最大频繁项目集,为此提出了一种最大频繁项目集更新挖掘算法UAMMFI(Updating Algorithm for Mining Maximal Frequent Itemsets)。算法基于改进后的频繁模式树结构,在更新挖掘过程中,不需产生候选项目集和条件模式树,并且充分利用先前已挖掘的最大频繁项目集中包含的信息,快速更新挖掘出最小支持度阈值变化后的最大频繁项目集。实验结果表明,算法能够高效更新挖掘最大频繁项目集。  相似文献   

15.
为有效提高peer to peer(P2P)系统在文件共享应用中的资源搜索速度,解决P2P节点的负载均衡,保证P2P共享系统的稳定性、可靠性和扩展性,提出了一种基于补充频繁模式的快速查询响应方法,主要工作包括:(1)提出满事务和补充频繁模式概念及补充频繁模式树(SFP-Tree)结构,其主要思路是利用具有较高支持度计数的短频繁模式B,吸收与B一起构不成频繁模式但又达到一定共享支持度阀值的单项构成基项集的补充项,B的所有补充单项构成其补充项集S,在此基础上查找包含B的最大频繁项集X,并从S中排除与X一起达不到共享支持度阀值的补充项,从而以X和S的子集构成一个以B为基项集的具有足够长度的补充频繁模式; (2)实现了补充频繁模式的挖掘方法,其主要思路是在构成整个事务数据库升序FP-Tree(AFP-Tree)基础上,递归挖掘条件混合模式树(CMP-Tree),在基项达到指定长度时,生成补充频繁模式树SFP-Tree,在此基础上挖掘带有负项的补充频繁模式,最后针对带有负项的补充频繁模式生成只包含正项的补充频繁模式; (3)模拟一份文件资源的历史响应事务集进行详实的实验,实验结果表明对于数据集规模达到100,000的P2P系统历史响应事务数据库,基于SFP-Tree的补充频繁模式挖掘方法能在20秒以内生成此文件资源的有效响应列表并能选择其中一个列表的有效子集瞬时响应查询请求。  相似文献   

16.
更新挖掘最大频繁项目集是研究动态数据库挖掘的重要方面;文章在量化概念格的基础上,引进最小频繁概念格的概念,提出了一种快速的更新挖掘最大频繁项目集的算法,该算法能够在原有挖掘结果的基础上,快速有效地挖掘出更新后的数据库中隐含的新最大频繁项目集.  相似文献   

17.
随着人们对隐私权的越来越重视,隐私保护数据挖掘成为当前研究热点.分类算法作为一个重要的数据挖掘方法被应用到各个领域,其中支持向量机(SVM)是分类算法中一个重要方法.并且数据的隐私性和安全性是人们关注的重点.本文对SSP协议进行扩展提出了一个基于垂直分布数据的隐私支持向量机算法,这个算法具有更高的效率和更好的安全性.  相似文献   

18.
目前面向分类的差分隐私保护算法中,大部分都是基于决策树或者随机森林等树模型。若数据集中同时存在连续数据和离散数据时,算法往往会选择调用2次指数机制,并且进行隐私预算分配时往往选择平均分配。这都使得隐私预算过小、噪声过大、时间成本增加以及分类准确性降低。如何在保证数据隐私的同时尽可能地保证数据可用性,并提高算法性能,成为目前差分隐私保护技术研究的重点。提出了面向决策树和随机森林的差分隐私保护数据挖掘算法,使用Laplace机制来处理离散型特征,使用指数机制处理连续型特征,选择最佳分裂特征和分裂点,并采用最优特征选择策略和等差预算分配加噪策略。对金融数据集的测试结果表明,提出的2种基于树模型的差分隐私保护算法都能在保护数据隐私的同时,具有较高的分类准确性,并且能够充分利用隐私保护预算,节省了时间成本。  相似文献   

19.
A context-aware privacy protection framework was designed for context-aware services and privacy control methods about access personal information in pervasive environment. In the process of user's privacy decision, it can produce fuzzy privacy decision as the change of personal information sensitivity and personal information receiver trust. The uncertain privacy decision model was proposed about personal information disclosure based on the change of personal information receiver trust and personal information sensitivity. A fuzzy privacy decision information system was designed according to this model. Personal privacy control policies can be extracted from this information system by using rough set theory. It also solves the problem about learning privacy control policies of personal information disclosure.  相似文献   

20.
针对传统的关联规则在试卷评估中应用出现的问题:由于试题的难易程度不同,被答对的概率也不一样,即数据集中数据项发生的概率不一样,数据项具有倾斜支持度分布的特征,选择合适的支持度阈值挖掘这样的数据集相当棘手。文章提出了基于试题难度系数加权的关联规则挖掘算法,从而解决因试题难度不同而导致数据项出现的概率不均的问题,发现更多有趣的关联规则,并且理论上证明了基于难度系数的加权关联规则算法保持频繁项集向下封闭的重要特性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号