首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对传统关联规则隐藏算法直接遍历数据集,而导致输入输出流资源浪费的问题,提出一种基于集合和剪枝原理的关联规则隐藏算法。该算法首先建立频繁模式树(FP-tree),利用后剪枝原理去除属性相同规则,减少了遍历原始数据集所耗I/O时间;然后通过建立集合来保存真实频繁序列,并以集合为单位隐藏关联规则,既保证数据集质量,又提高频繁序列挖掘效率。实验结果表明,该算法与GSP、SPADE算法相比较,不仅更好地保证了数据集的高质量,而且降低了20%~50%频繁序列挖掘时间,并在隐藏敏感规则上有较好的实用性。  相似文献   

2.
传统的序列模式挖掘算法虽然能够挖掘所有的频繁序列,但在挖掘海量数据时可能因结果规模过于庞大而无法理解.基于概念格的序列模式挖掘有效地减少了中间序列的生成数量,在时间性能上具有一定的优越性,而概念格的结构特点也为自身的约简提供了便利.本文提出了近似概念的定义,首先对交易数据库建格,然后约简满足近似条件的概念,减少了频繁1-序列的数量,进而减少了总的频繁序列的数量.实验表明,在允许一定误差的情况下该方法提高了挖掘结果的可理解性和挖掘效率.  相似文献   

3.
针对高维大数据不确定性的非均匀挖掘问题,提出一种基于不确定频繁模式树的模糊逻辑非均匀数据挖掘算法.首先,在考虑数据不确定性的前提下建立高维数据的区域连接演算(RCC)模型,并基于数据集合组元定义分析不确定数据集合的模糊距离;然后,采用不确定模式树对数据的非均匀特性进行均匀泛化处理,并给出了具体的实现步骤.仿真结果表明:文中方法有效地提升不确定非均匀数据集合在不同支持度情况下的挖掘效率.  相似文献   

4.
为了实现对数据流的序列模式挖掘,提出了基于数据流的序列模式挖掘算法MFSDS-1和MFSDS-2,它们均通过调整入选度的大小来调整保存信息的粒度.算法MFSDS-2利用分层存储结构,不仅能更好地保存序列信息,而且可以通过与全局序列模式的对比得到当前活动的一些异常序列模式.实验结果表明,基于分层存储的算法MFSDS-2的效率比算法MSFDS-1高.  相似文献   

5.
基于差别矩阵的增量式属性约简完备算法   总被引:1,自引:0,他引:1  
为了解决基于差别矩阵的属性约简完备算法得不到最小约简的问题,提出了一种改进的属性约简方法.该方法将信息论定义的属性重要性作为启发式信息,并通过构造一个条件信息熵算子对差别集合进行运算,同时利用算子来计算候选属性的剔除次序,采用宽度优先搜索策略使约简集合中含有最重要的属性,这样就解决了完备算法约简率低的问题.结合该方法并在分析对象集增量与差别矩阵关系的基础上,证明了增量约简定理,由此提出了一种增量式约简完备算法(CAIR),当新数据加入决策表时,算法可增量构造差别集合.实验结果表明,所提CAIR在大大缩短计算差别集合时间的同时,约简率比非完备算法提高了20.3%,是同条件下完备算法执行效率的13.2倍.  相似文献   

6.
考虑到Web访问数据的动态特性,给出了一个从Web访问日志历史演变中挖掘频繁波动的Web访问模式的方法.首先采用无序树结构表示用户历史访问页面序列集合,然后给出了频繁波动Web访问模式的详细定义以及挖掘算法描述,最后,根据数据集中访问序列的大小和数量变化对于算法扩展性和性能的影响进行了实验.结果表明,该算法具备良好扩展性的同时,能够比较高效地提取出频繁波动的Web访问模式.  相似文献   

7.
在分析了频繁序列模式更新算法关键技术的基础上,提出了一种快速的增量式更新频繁序列模式挖掘算法FUFSPA,该算法将充分利用先前挖掘过程中所产生的信息来减少本次挖掘过程中的时闻开销.另外,针对频繁序列模式挖掘中支持数计算的复杂性,提出了一种基于二进制形式的支持数计算方法,该方法只需进行一些“或”逻辑运算操作,将该方法用于序列模式挖掘中支持度(数)的计算,可以进一步提高算法的执行效率.实验结果表明算法FUFSPA是可行和有效的.  相似文献   

8.
针对PrefixSpan算法在产生频繁序列模式(特别是挖掘密数据集和长序列模式)时会产生大量的投影数据库,使得算法性能下降的问题,提出一种基于投影位置的序列模式挖掘(PSPM)算法.该算法利用Apriori性质舍弃对非频繁项存储,节省了存储空间和扫描不可能出现序列的挖掘时间;在递归挖掘过程中,利用投影位置表直接定位投影序列位置进行挖掘局部频繁项,避免了构造投影数据库,从而提高执行效率.实验结果表明:与PrefixSpan(with pseudo-pro)算法相比,PSPM具有更好的执行效率和可伸缩性.  相似文献   

9.
结构关系模式挖掘是在序列模式挖掘基础上提出的一种新的数据挖掘任务,又叫做后序列模式挖掘。重复模式是结构关系模式重要形式之一。文中讨论了重复序列模式的概念,研究了重复序列的性质,给出了基于序列模式的、基于最大序列模式集的重复序列模式挖掘算法和基于最大序列模式集的最大重复序列模式挖掘。实验结果表明,算法是可行的。重复模式挖掘可以得到序列模式挖掘所得不到的结论,发现序列模式间存在的进一步的关系。  相似文献   

10.
针对电子商务网络消费的文本信息挖掘问题,构建了一个基于多属性决策理论的挖掘方法.首先设置指标集合和方案集合,进而根据这2个集合生成决策矩阵,再根据分项属性指标的归一化处理、权重配置,最终形成基于决策判断的文本挖掘.实验结果表明,LG品牌电视在显示属性方面更优,SONY品牌电视具有综合优势,长虹品牌电视也有自己的优势所在.  相似文献   

11.
Apriori算法是关联规则数据挖掘领域中最重要的挖掘方法,针对Apriori算法中挖掘频繁项集的效率问题和产生关联规则的合理性问题,改进相关定义及其使用,并提出改进的Apriori算法,然后将改进算法用于教学评价仿真系统.仿真结果表明,改进算法可高效、合理地挖掘关联规则,为做好课程安排和教学工作提供支持.  相似文献   

12.
产生频繁项目集是关联规则挖掘中的一个关键步骤.在对Apriori算法分析的基础上,提出了一种基于集合和位运算的频繁项目集挖掘算法.该算法用位视图表示使用了每个项目的事务,通过对位视图进行位运算来计算每个项目集的支持数,避免了Apriori算法中多次扫描数据库的问题.  相似文献   

13.
发现频繁项集是关联规则挖掘的关键步骤。然而,大多数频繁项集求解算法因需要产生大量候选集而降低了效率。该文在研究概念格和频繁项集关系的基础上,将剪枝概念格PCL模型引入数据库中频繁项集的表示,利用概念间的关系性质,在不丢失信息的同时能有效压缩频繁项集的规模,并提出基于PCL模型的频繁项集求解算法。该算法基于Apriori性质,在构造过程中及时、动态地剪枝,删除与频繁项集求解无关的概念,从而有效地改善了频集挖掘算法的时空性能;实验证实了算法良好的性能。  相似文献   

14.
Apriori算法是经典的关联规则挖掘算法,主要缺点是可能产生大量的候选集和需要多次扫描数据库.从幂集运算的角度提出了一种新的关联规则挖掘算法P_DM算法,实现了只需要扫描一次数据库就产生所有频繁集.实验证明这种算法在中小规模数据挖掘上效率优于Apriori算法.  相似文献   

15.
快速关联规则增量式更新算法充分利用以往挖掘过程中的结果,无需再次扫描原数据集,对新增数据集也只扫描一次,即可得到事务更新后的数据集的频繁项集。该算法避免了重新处理已经处理过的数据和多次扫描新增数据集,与其他相关算法相比,极大地减少了算法运行时间,提高了挖掘效率。随着历史数据集的增大,更加显现出本算法的优越性。本算法还可以用于解决由于数据集过大而导致的内存不够的Apriori算法的挖掘问题,相当于数据集分组挖掘。  相似文献   

16.
在分析当前Apriori算法及其改进算法的基础上,提出了一种将Apriori算法与物流信息挖掘相结合的Apriori改进算法.通过Apriori改进算法与原Apriori算法挖掘结果的比较,说明了Apriori改进算法不仅缩小了剪枝扫描数据库的规模而且减少了生成频繁项目集的候选项目集.  相似文献   

17.
廖孟柯  樊冰  李忠政  付林  舒楠 《科学技术与工程》2021,21(24):10381-10386
影响配电网设备提前退役的因素复杂多样,而且多种因素之间互相作用。为了筛选出影响设备提前退役的主要因素候选集,可以利用数据挖掘算法得到其中关联规则。其中,Apriori算法是最经典的挖掘关联规则的算法。但是传统的Apriori算法时间复杂度过大,计算效率不高。针对这一现状,提出一种基于三维矩阵的Apriori优化算法,通过建立三维矩阵以及简约数据库的方式,减少了传统算法中的计算冗余,挖掘出影响配电网设备提前退役的因素频繁项集。结果表明:改进算法能够得到配电网设备退役因素的关联规则并明显提高计算效率。  相似文献   

18.
阐述了关联规则挖掘对象事务数据库的特性, 对关联规则挖掘的关键问题频繁项集的几种挖掘方法:Apriori算法、最大频繁项集的挖掘算法、基于频繁链表的频繁项集挖掘算法作了分析研究,并指出了频繁项集挖掘算法优化的必要途径  相似文献   

19.
基于线性链表存储结构的Apriori改进算法   总被引:1,自引:1,他引:0  
Apriori是最有影响的挖掘关联规则频繁项集的算法。但是Apiori由于需要多次对数据库进行扫描,所以运行效率比较低。在Apriori算法的基础上,本文提出了一种基于线性链表的频繁项集挖掘算法,实验证明该算法能够有效提高执行效率。  相似文献   

20.
关联规则挖掘算法研究   总被引:1,自引:0,他引:1  
详细研究了关联规则数据挖掘,分析了存在的问题和不足,提出了一种频繁项集增量算法,用于对Apriori算法进行改进.实验表明,改进算法在运行效率上要比Apriori算法快一个数量级.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号