首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
为解决多数据源挖掘隐私保护问题,文章采取按相似度分类多源数据库及其增量数据库,利用原始数据库挖掘结果和增量数据库分析结果进行敏感序列模式匹配,以有效减少数据库扫描次数的方法,设计实现隐私保护的增量式的高投票率序列模式挖掘算法。实验结果表明,给出的算法既能够准确挖掘出多数据源中全局高投票率模式,又能有效地隐藏保护敏感模式,且显著缩短了挖掘时间。  相似文献   

2.
例外模式挖掘是数据挖掘的一项重要内容.该文针对用户的兴趣提出一种多数据库中例外模式的挖掘方法,先由用户给定他感兴趣的数据对象,选择与用户兴趣相关的数据,局部分析每一个数据库得到局部模式,再将局部模式综合得到全局模式,最终得到例外模式;并用实验验证了该方法的正确性和有效性.  相似文献   

3.
基于模式矩阵的FP-growth改进算法   总被引:10,自引:0,他引:10  
数据挖掘中关联挖掘算法比较典型的有Apriori和FP—growth算法.实验和研究证明FP—growth算法优于Apriori算法.但是针对大型数据库这两种算法都存在着较大缺陷,不仅要两次或多次扫描数据库,而且很难处理支持度和数据变化等关联规则更新问题.作者提出了基于模式矩阵的FP—growth改进算法,它至多扫描数据库一次,特别在更新问题上不用重新扫描数据库.通过实验结果分析,验证了这种改进算法相对于原有FP—growth算法的优势,特别在大数据集下,大大降低了挖掘的时间复杂度.  相似文献   

4.
针对序列模式挖掘中的增量挖掘问题,提出一种序列模式更新算法ISPBP.算法引入序列数据库结构来存储从原始数据库中挖掘出的所有项、最大频繁模式以及它们的支持数,采用间接拼接方法,只需处理增量数据库,避免了对更新后数据库的重新计算.对于因增量数据库新产生的频繁模式,利用了在增量数据库中出现的频繁项集来减小投影数据库,进一步提高了算法的效率.理论分析和实验表明,算法是有效可行的,并且增量数据库越大,算法在效率上的优越性越明显,算法ISPBP优于传统增量式更新算法.  相似文献   

5.
关于时序模式发现算法的研究   总被引:1,自引:1,他引:0  
数据挖掘归属于决策系统,可以从浩瀚的数据库中挖掘出不易被发现的有用信息,并且可以进行预测,为管理层中决策者的决策提供科学依据。针对时序数据中的复杂模式问题,提出了一种时序模式算法,并描绘了算法的基本思想及给出了算法的简单伪代码。在用程序实现后,对算法的优劣进行了分析,为进一步改进和完善算法或者为寻找更为理想的算法提供了有益的启示。  相似文献   

6.
在交易数据库的挖掘研究中,模式未来行为的预测已成为用户关注的焦点。通常是通过分析和挖掘历史交易数据库中的数据得到模式未来行为——频繁出现程度,以便帮助用户决策。为解决这类问题,设计一个基于回归法的算法挖掘一类新模型超期望模式。实验结果表明这种模式在模式评价和模式预测方面很有效,它同时为减少冗余规则提供了一种可行的方法。  相似文献   

7.
传统的频繁模式挖掘算法产出大量的频繁模式,这些大量的频繁模式对于后期的分析、处理以及理解都带来了相当大的挑战.针对上述问题,该文提出了一种改进的压缩频繁模式挖掘算法,该算法基于CFP-树通过对传统频繁模式挖掘算法的改进能够从大量的频繁模式中选择出规模更小的频繁模式代表集合,从而起到减小庞大的频繁模式挖掘结果规模的目的.实验中还将该算法和现有的RPlocal算法进行了对比,结果表明改进的压缩频繁模式挖掘算法能够在合理的时间及容错范围内获得更小的频繁模式代表集,同时大大降低了时间复杂度,提高了挖掘效率.  相似文献   

8.
模式集成在很多数据库相关领域起着关键作用,例如数据空间、数据仓库和电子商务等.提出一种自动的多个中间模式的产生方法.首先,引入概念图在抽象层次上表示待集成的多个源模式.其次,给出一种概念之间相似性的划分方法,每种划分方式表示一种源模式的集成策略.最后,利用模拟退火算法在候选中间模式空间中进行搜索,该算法能够自动地找到k个最好的候选中间模式.实验表明,提出的算法是有效的,并且具有较小的运行开销.  相似文献   

9.
快速频繁序列模式挖掘算法   总被引:4,自引:1,他引:3  
为解决从数据库中挖掘长模式可能遇到较高的计算复杂度问题, 提出一种新的算法FFSPAN. 传统上, 要判断一个序列是否频繁, 需要在原数据库中判断整个序列是否频繁; 而算法FFSPAN是通过在序列数据库中寻找一个频繁项或一个频繁项集来代替寻找一个完整的频繁序列, 而且FFSPAN算法每次扫描的数据库都是迅速减小的, 这使得算法在挖掘的序列模式越长时越有效. 在标准测试数据集上的实验结果表明, FFSPAN算法非常有效.  相似文献   

10.
在分析Arning算法和其改进算法的基础上,提出一种新的发现偏离模式的线性算法.该算法将使数据序列突然发生大幅度波动的数据认作例外.已发现的例外被用数据序列平均值代替,在此基础上进行下一例外的发现.实验证明,该算法克服了例外集对数据次序的敏感性,并且下一例外发现不受上一例外发现的影响,从而可以重加有效的发现数据序列中的例外集.  相似文献   

11.
为提高入侵检测系统整体的性能和效率,在研究经典的WM(Wu-Manber)多模式匹配算法的基础上,提出一种改进的WM多模式匹配算法.该算法使用后缀表方法,减少了匹配过程中模式字符串与文本的比较次数.实验结果表明,该算法有效提高了入侵检测系统匹配的速度和效率.  相似文献   

12.
基于条件模式树的最大频繁模式挖掘算法在挖掘过程中将扫描事务数据库两次,且产生了大量的候选项目集,产生最大频繁模式过程中比较次数较多,总体效率较低.提出改进后的最大频繁模式挖掘策略,利用二维表保存事务出现项目的情况,通过最大频繁模式的相关性质减少了挖掘的项数及产生的频繁模式集,减少比较的次数.  相似文献   

13.
给出解决海量数据库序列模式的挖掘问题的算法.首先采用分布式概念格的思想对数据进行划分,根据子全概念生成相应的子形式背景,选择最优的算法对子形式背景上建格(即子格),所有子格建好后,再对子格进行序列模式的挖掘,合并后得到整个数据库的序列模式.  相似文献   

14.
重复模式是城市景观的突出显著特征,重复模式的检测对于城市景观分析具有重要意义。提出了一种通过综合使用特征提取及直积低秩建模实现图像重复模式检测的新方法。首先,利用消失点和Harris角落,从正面图像中自动选择出具有代表性的纹理实现图像的矫正,然后提出基于直积的新算法,可以检测出正面图像纹理内的重复模式。最后,基于大量图像对方法进行了测试。实验结果表明,方法可以显著提升检测质量。  相似文献   

15.
结合可信度约束,提出解决序列模式发现研究的算法,并分别对以下两种方案展开研究.I:先寻找所有满足最小支持度的最大高频序列,后计算最大高频序列的各阶可信度.II:先计算最大高频序列的各阶可信度,后寻找所有满足最小支持度的最大高频序列。  相似文献   

16.
Web日志中挖掘用户浏览模式的研究   总被引:24,自引:0,他引:24  
研究了Web日志挖掘的机理,提出了使用频繁遍历径作为用户浏览模式,并在分析挖掘频繁遍历路径的问题特征和对其进行形式化描述的基础上,进一步提出了一种在Web日志中挖掘频繁遍历路径的类Apriori算法,该算法能够正确、快速地从Web日志中抽取频繁遍历路径。  相似文献   

17.
基于行为模式挖掘的网络入侵检测   总被引:3,自引:0,他引:3  
基于系统模型DMIDS,提出了一种有效防范网络入侵的方法。该方法基于IP包信息挖掘出用户的频繁行为模式,能自动建立正常和异常的用户行为规则库;利用相似性匹配,能实时地检测出已知的和未知的攻击。详细介绍了用户频繁行为模式挖掘算法--IDSPADE,实验结果表明该算法能够有效地发现多种网络入侵行为。和现有基于知识工程的方法相比,该方法具有更高的智能性和环境适应性。  相似文献   

18.
探索有约束限制的频繁模式的挖掘问题,目的是要建立一个基本框架,通过构造一种新的数据结构--约束树,解决了确定一个项集的最小约束值的关键问题.在此基础上进一步提出了一种有约束限制的模式增长算法,并进行了初步的实验验证.实验结果表明,新的算法比以前类似算法在性能上有显著提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号