首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对使用传统关联规则算法挖掘大数据集时,挖掘过程中效率不高,挖掘出大量冗余规则的问题,提出了基于关联规则和相似度的数据挖掘算法(U-APR):首先,一次性读入数据并构建矩阵,并利用关联规则支持度度量的特性来增加判断属性,以加快结束迭代过程,从而改进了Apriori算法频繁扫描数据库问题;然后,使用相似度算法去除冗余的关联规则;最后,结合置信度、支持度和用户目标匹配度对挖掘结果进行排序输出,从而得到用户感兴趣的关联规则. 同时,应用该算法与目前常用的2种关联规则算法对广东某高校学生财务数据进行数据挖掘. 实验结果表明:与2种常用的关联规则算法相比,U-APR算法缩短了运算时间和提高了存储空间利用率,对用户分析挖掘结果有较好的优化效果.  相似文献   

2.
针对云计算环境下由于数据缺失导致关联规则发现误差较高的问题,提出一种基于张量分解的缺失关联规则分布式发现算法,从而建模关联规则、缺失数据并近似它们的置信度.利用Apriori算法进行局部数据相关以获得频繁项集,通过CANDECOMP/PARAFAC (CP)分解方法分解张量置信度,使用共轭梯度算法进行迭代以最小化近似张量的成本,当存在缺失数据的情况下,利用分布式算法将局部相关与全局相关结合发现缺失关联规则.仿真结果显示,算法的平均误差仅为5.55%,最大误差不超过10%,低于其他几种较新的缺失关联规则算法,相比基于聚类的关联规则算法,平均执行时间减少了16.5%.结果表明,所提基于张量分解的分布式算法在缺失数据的情况下,性能优于其他的关联规则算法,能更加有效地提供缺失规则置信度的近似解.  相似文献   

3.
针对传统数据挖掘方法存在挖掘精度低、速度慢、占用内存多而不适于实际应用等缺点,提出一种属性受限状态下低维冗余聚类数据挖掘方法。通过计算低维冗余聚类数据的支持度,把低维冗余聚类数据挖掘问题转变成频繁项集挖掘问题;利用支持度与可信度对关联规则产生结果进行评价,并添加属性对其进行限制,以减少无用规则的产生。通过属性位复用方法建立候选区域,产生关联规则集,对符合关联规则集的低维冗余数据进行聚类,实现对其挖掘。实验结果表明,通过所提方法对属性受限状态下低维冗余数据进行挖掘,挖掘速度快,结果可靠。  相似文献   

4.
针对经典Apriori算法存在多次扫描数据库及生成冗余候选项的弊端, 提出一种改进的VM_Apriori算法. 该算法采用事务数据向量矩阵与行候选向量相结合的表示方法, 运用快速排序的思想对频繁项集的项按各单项的出现频度升序重排,  以提高算法的执行效率. 实验结果表明, 改进的VM_Apriori算法能在正确挖掘关联规则的同时极大提高执行效率.  相似文献   

5.
由于传统的Apriori算法是串行的并且效率较低,分析了Apriori算法的计算过程,针对其原理设计了一种基于Mapreduce的并行Apriori改进算法.实验结果证明,改进的算法能较好地提高关联规则挖掘的效率,具有接近线性的加速比和良好的应用价值.  相似文献   

6.
随着数据库规模的日益增大,关联规则挖掘需要在挖掘效率、可用性、隐私性及精确性等方面得到提升,需要对传统的关联规则挖掘算法进行更新和改进。在传统的Apriori算法基础上,提出了一种新的在关系数据库中挖掘关联规则的算法。该算法只需扫描一次数据库即可得到频繁项集,并通过非频繁项集来减少候选项集的生成,从而提高了算法的运算效率;此外,该算法将包含敏感数据事务做相关的处理,以达到隐藏包含敏感数据的关联规则。理论分析和实验结果表明,新算法不仅提高了关联规则挖掘的效率,而且还达到了隐藏包含敏感规则的目的。  相似文献   

7.
为提高网络告警数据的处理效率,迅速找出故障根源,以保证整个电信网络的正常运行。针对告警数据的特点对传统的关联规则算法进行了相应的改进,提供了优先剪枝策略,避免了生成没有意义的频繁项集;k-1-项集通过连接操作生成k项集,避免了反复扫描数据库所带来的压力。结果表明,改进算法提高了挖掘效率,达到快速诊断网络故障的目的。  相似文献   

8.
一种无冗余的关联规则发现算法   总被引:11,自引:0,他引:11  
关联规则是数据挖掘的重要研究内容之一,而传统算法生成的关联规则之间存在着大量的冗余规则。本文提出了一种通用的由量大频繁项目集生成无冗余关联规则的GNRR算法,利用规则之间的冗余关系,按一定顺序挖掘不同的规则,消除了规则之间的冗余性,使发现的规则数目呈指数倍减少。  相似文献   

9.
为解决现有的缓冲体边界生成算法在单值曲面应用中存在的效率低下问题,在深入分析当前算法的基础上,针对单值曲面这类特殊形态的地理要素,提出了一种基于滚动球模型的单值曲面缓冲体边界生成算法?基于缓冲体边界构建原理,对其几何特性进行了详细地分析,将单值曲面缓冲体边界的几何特性考虑在内,建立了单值曲面逻辑和运算法则;同时,提出了滚动球模型的概念,将逻辑并运算法则和滚动球模型的概念引入到该算法中,从而降低了其计算复杂性?在VC++环境下对该算法在格网数字水深模型中的应用进行了验证?实验结果表明,该算法具有执行效率高,精度可靠,可适应较复杂的单值曲面形态?该方法用于单值曲面缓冲体边界生成是可行的?有效的?  相似文献   

10.
针对当前电子商务中关联规则技术的应用,结合电子商务系统的实际需求,在简述关联规则技术与Apriori算法的基础上,提出了一种改进的Apriori算法,并与传统算法进行比较分析,最后将此算法实际引用到电子商务系统中,使其具有更高的效率和准确度.  相似文献   

11.
提出利用序列模式挖掘方法得到频繁入侵命令序列,将频繁入侵命令转换为底层入侵检测器的检测规则用于检测用户的可疑行为.为了消除误报,设计了一个基于入侵事件状态的关联引擎,将频繁入侵命令序列作办关联规则,并提出了一种新的入侵关联算法,该算法不仅考虑了每类主机入侵行为的序列特征,也反映了不同类型主机入侵行为之间的因果关系,体现了主机入侵行为的多样性和复杂性.实验结果表明,该入侵关联模型对各类主机入侵行为的检测效果良好,误报率明显降低,特别是下载类和信息获取类主机入侵行为的误报降低了20%左右。  相似文献   

12.
概念格递增修正关联规则挖掘方法   总被引:1,自引:0,他引:1  
研究了一种知识发现与数据挖掘中关联规则的发现方法 .关联规则是数据挖掘的重要方法之一 ,其核心是各大项目集的获取 .针对货篮关联规则挖掘方法 ,提出了一种改进的概念格递增修正方法 .该方法适应于数据库的动态数据递增或递减更新 ,通过记录项目集 (即概念格中的结点 )在数据库中出现的频率值 ,不需要构造完整的格即可求得项目集的支持度值和可信度值 ,以获取大项目集 ,进而求得关联规则 .同时 ,该方法运用 Hasse图解进行可视化操作 ,降低了算法的时间复杂度  相似文献   

13.
关联规则挖掘是数据挖掘技术的一种简单又很实用的方法,有着广泛的应用。该文利用部分支持度树的结构提出了对关联规则的增量式更新算法,用于解决向数据库中添加新的数据而最小支持度不发生变化时的关联规则更新问题。该算法有效地利用已挖掘的关联规则和保留的部分支持度树来改善性能,并且只需对新增数据库部分进行一遍扫描,从而进一步提高算法的效率。实验结果表明,该算法能有效地解决关联规则的更新问题,提升挖掘效率。  相似文献   

14.
基于模糊关联迭代分区的挖掘优化方法研究   总被引:2,自引:2,他引:0  
由于数据库存在数据量大、多维性的特点,传统挖掘方法在对数据进行处理时,无法构建精准的数学模型,容易出现部分信息丢失、分区过硬的问题。提出一种基于模糊关联迭代分区的挖掘优化方法,通过模糊C均值聚类算法对原始数据集进行预处理,过滤冗余数据,获取原始数据集的模糊分区;利用模糊关联挖掘算法获取感兴趣规则,实现数据的优化挖掘。实验结果表明,针对不同的数据集,改进的方法均具有很好的分区性能,且时间复杂性低,挖掘精度高。  相似文献   

15.
预测型关联规则演化学习的适应值函数   总被引:3,自引:2,他引:1  
为了提高基于遗传算法的分类预测准确度,探讨了评价规则质量的适应值函数,提出了基于置信度和支持度加权和的适应值函数,以取代传统的基于灵敏性和选择性的适应值函数.理论分析和实验结果都表明,文中提出的新适应值函数对于预测型关联规则演化搜索的引导作用明显地优于传统的适应值函数.新的适应值函数有利于改进基于遗传算法的机器学习.  相似文献   

16.
基于SQL的Apriori改进算法   总被引:1,自引:0,他引:1  
Apfiofi算法是一种最有影响的挖掘关联规则的算法,由于其算法仅用支持度、可信度来衡量关联规则,容易生成一些错误规则,所以,引入了提升度这一概念,提出一种基于SQL的Apfiofi改进算法。  相似文献   

17.
针对Apriori算法在面对大规模数据时效率较低的问题,提出了一种基于划分和压缩数据库的改进方法。该方法首先依据特征数据出现的频率将数据按照升序存储在临时数组中;然后将原始事务数据库分为几个互不相交的事务数据库,使得子数据库能够容纳在内存中;最后根据每个子数据库计算出的频繁项集计算整个数据库的频繁项集,从而消除了不必要的冗余数据。通过改进可以将大规模数据集进行有效的划分和压缩,对子数据库进行关联规则挖掘。实验结果表明,改进的Apriori算法在针对海量数据挖掘的执行速度和效率都有很大提高。  相似文献   

18.
网络数据包安全指标关联规则挖掘应用与研究   总被引:2,自引:2,他引:0  
对网络通信中,安全指标间关联规则的挖掘速度缓慢问题进行研究。网络通信数据的高容量、多样性和复杂性,使网络安全指标间关联规则挖掘的信息处理难度较高、时间效率低,为此提出一种基于并行FP-树频集算法的关联规则数据挖掘方法并成功应用于网络通信的安全指标挖掘中。首先对网络通信数据进行Netflow流量数据采集,对其进行预处理以信息熵的形式存储。然后将频集压缩到频繁模式树上,再引入并行算法在多个处理器上为频繁模式树的节点创建条件模式库和条件模式树,在不同的并行处理器上进行同时处理,最后生成反映网络安全信息的关联规则。该方法提高了网络信息安全指标间关联规则挖掘的效率,在同样的支持度阈值和置信度阈值的条件下,可减少处理时间4~7 s。  相似文献   

19.
一种扩展的关联规则挖掘算法   总被引:2,自引:1,他引:1  
提出一种扩展的关联规则挖掘算法, 该算法扩展了传统 算法都是针对二元数据矩阵的缺点, 引入了挖掘量化的关联规则, 通过试验发现, 该算法同样适用于传统的布尔矩阵. 该算法主要是基于主成分分析法发现数据中特征向量的思想来挖掘数据中的量化关联, 同时定义了比例项目集. 该算法在时空复杂性上也取得了较好的效果  相似文献   

20.
数据集中多属性关联规则发现算法   总被引:1,自引:0,他引:1  
对数据挖掘中的多属性关联规则算法进行了探讨,给出了关联规则发现算法的相关概念(关联规则、支持率、可信度)和关联规则发现算法,并说明了传统查询工具在数据挖掘中的作用,以及该算法需要进一步研究的内容。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号