首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
基于有向图的关联规则算法   总被引:5,自引:0,他引:5  
提出了一种基于有向图的关联规则挖掘算法,采用了垂直二进制位图映射数据库,根据垂直二进制位图来生成有向图,将频繁项的二进制位串作为有向图的权值,通过分析有向图生成最大频繁项集,并给出了最大频繁项集挖掘算法的优势。  相似文献   

2.
基于有向图的关联规则算法   总被引:2,自引:0,他引:2  
提出了一种基于有向图的关联规则挖掘算法,采用了垂直二进制位图映射数据库,根据垂直二进制位图来生成有向图,将频繁项的二进制位串作为有向图的权值,通过分析有向图生成最大频繁项集,并给出了最大频繁项集挖掘算法的优势。  相似文献   

3.
针对Eclat算法连接和剪枝操作耗时的缺点,按照项集之间的可连接性,将数据集划分为等价类并分段存储,采用末项剪枝策略,在常量时间内完成连接和剪枝操作.针对Eclat算法求长集合的交集操作需要大量计算的缺点,采用多维数组分段存储项集的事务集,将长集合的求交集操作转换为分段求短集合的交集,并提出期望支持度的概念,在求交集的过程中预测支持度,从而减少求交集的比较次数.实验结果表明,该算法在时间性能方面优于Eclat算法,尤其适用于挖掘长模式稀疏数据集.  相似文献   

4.
频繁模式挖掘中基于FP-growth的算法需要扫描两次事务数据库,预先给定支持度,且不支持时间敏感型数据。本文提出了一种基于频繁模式有向无环图的数据流频繁模式挖掘算法,它根据事务到来的时间给每个事务一个序号,每个事务中的数据项在存储前按数据项的顺序进行调整,频繁模式有向无环图的构建遵循这个顺序并用序号来记录事务与数据项的包含关系,模式增长过程只需要增加有向边上的序号。通过逆向遍历带有相同序号的有向边,产生条件模式基,根据动态定义的阈值抽取条件模式基信息,一次扫描数据库得到频繁模式。实验结果表明,本文算法的执行效率优于FP-growth算法,且存储节点的数目明显减少。  相似文献   

5.
AGM算法和HSIGRAM算法是两个经典的频繁子图挖掘算法,在基于图的数据挖掘中有重要的应用.从算法思想和应用技术两个方面分析了AGM算法和HSIGRAM算法的异同点,结合基于图的数据挖掘的特性,提出针对这两个算法的改进策略.  相似文献   

6.
图数据的挖掘工作是数据挖掘工作中的重要组成部分,已经有许多人在这个领域进行了深入的研究.由于数据获取不可避免噪音数据,故在挖掘频繁图时考虑近似十分重要.然而许多此前的工作只考虑了子图间编辑距离(Graph Edit Distance,GED)的绝对值,而没有考虑子图间编辑距离与子图大小的相对关系.提出了一种在单图中进行近似频繁子图挖掘的新算法,并在计算近似程度时考虑当前子图的大小.该算法通过对近似频繁子图的大小上限进行预测,并通过局部反单调性进行剪枝,提高了算法的效率.实验表明,该算法能够挖掘出传统算法无法发现的近似频繁子图,且相比对比算法具有更好的时间性能.  相似文献   

7.
分布式数据挖掘计算是大数据研究中非常重要的技术,现有的对频繁模式的分布式挖掘方法在处理大量数据集时仍然存在许多局限,如并行Apriori算法在多次扫描数据库过程中对I/O产生很大负担,并且有大量候选集产生.本文使用的FP-growth算法包括Fp-tree构建和频繁模式挖掘两个阶段.主要思想是在map阶段构建FP-tree之前,根据步长值及项目元素编码对FP-tree节点合并,并在shuffle阶段依据平衡算法划分给不同的reducer.平衡算法用来均衡工作负载.利用该算法来降低数据分配的随机性,避免数据挖掘阶段由于数据划分不均衡导致部分reducer开销过大的缺点.实验结果表明:与现有方法相比,在较大数据集情况下改进后的算法具有更好地运算效率和可伸缩性.  相似文献   

8.
吸收深度优先和广度优先算法的优点,充分利用Apriori原则,提出了一种连接-扩展混合型的频繁无序树挖掘算法.首先在兄弟模式子树间进行连接,然后只在模式子树的最右叶顶点上进行扩展.分别用人工数据集和现实数据集进行测试,结果表明,本文算法比uFreqt算法性能提高0.5~1.0倍,比HybridTreeMiner算法性能提高5~10倍.  相似文献   

9.
虽然已有的最大频繁项集挖掘算法在结构和技术上已经做了很多改进,但还是存在挖掘速度慢、效率低的缺点,在此提出了图的四叉链表存储结构和基于该存储结构的最大频繁项集挖掘算法,该结构具有一次生成多次使用,不必耗用额外的存储空间等特点,基于该存储结构的最大频繁项集挖掘算法充分利用了该存储结构的特点以及频繁扩展集的性质,有效地减少了冗余候选集的生成,降低了串的冗余存储,将串集合间的比较转化为整型数组的比较,从而使得它比已有的最大频繁项集挖掘算法在挖掘效率上有了明显的提高,最后通过实验证明了该算法较其他已有算法效率有了较大的提高.  相似文献   

10.
11.
WebGIS作为一种B/S模式下的GIS技术,其应用领域十分广泛。但在某些特定的环境下,如无法获取数字化的矢量地图,或者数字地图的精度不能满足要求时,GIS的功能便无法实现。由于位图的获取相对容易得多,现在提出了一种利用JavaApplet技术对位图进行处理,不需要专业的地图引擎软件实现类WebGIS技术的方法,为WebGIS的特殊应用探索出一项新的有效解决方案。  相似文献   

12.
文章提出了一种基于交集关系原理的算法叫做交集算法,它与类Apriori算法本质上互补。这种算法的最大优势是不需要产生大量的候选频繁访问模式,就可以直接生成最大频繁访问模式,因此在挖掘过程中也就不需要反复扫描原始数据库来计算各个候选频繁访问模式的支持度计数;经理论分析和试验证明,交集算法具有一定的理论意义和应用价值。  相似文献   

13.
通过对RTAI部分内核代码的分析,指出RTAI中原有的基于双向链表结构的就绪任务队列存在缺陷,在RTAI中引入优先级位图对RTAI的就绪任务队列进行了改进,实现了一个基于优先级位图的双向循环链表的就绪任务队列结构,从而在原有基础上进一步提高了RTAI的实时性,并通过实验加以验证。  相似文献   

14.
在对位图图像进行处理时,为了追求效率,往往是将位图全部读进物理内存,然后在内存中进行处理,这种方法对于尺寸较小的位图图像比较理想,但是对于特大型的位图图像就显得无能为力了。针对一些位图格式的特大机械图纸的实时处理要求,本文提出了用面相对象编程工具Delphi实现基于内存映射文件的特大机械图纸快速处理,该方法无需将位图全部读进物理内存中,从而解决了物理内存不足而带来的缺憾,取得了令人满意的效果。  相似文献   

15.
位图索引是一种使用Bit位的索引,有着较高的效率,大多运用于属性基数相对较小的情况。它有着较多的重复数据,可进行压缩,压缩编码的改进是研究的一个热点。对现有COMPAX编码方式进行改进。基于Hadoop的位图索引,使用分布式处理机制,使得位图索引的执行效率得到提升,可以运用于现今的大数据环境中;以解决目前大量的信息数据的查找问题。在建立索引过程中同时使用改进后的COMPAX编码进行数据压缩,使得索引占用空间减小,进一步提高对索引处理效率。  相似文献   

16.
针对MFP-tree挖掘算法的不足,给出了一个频繁模式挖掘算法EMFP.算法通过将事务数据库的每条事务支持度进行裁剪以及为EMFP-树的节点添加子树个数计数器等措施来提高EMFP-树的挖掘算法的效率.实验结果表明,EMFP-树的挖掘算法是一个高效的频繁模式挖掘算法,其性能优于MFP算法.  相似文献   

17.
在地理信息系统的开发过程中,对屏幕图形进行精确识别是一个较难解决的技术问题.在某些实际应用中,近似处理的误差已经超过了人们所能接受的程度.该文就地理信息系统中的图形识别技术提出了一种全新的方法——影子显示位图(shadow display bitmap)技术.影子显示位图技术用于精确地识别显示在屏幕上的各种简单的和复杂的图形元素.该文论述了影子显示位图技术的工作原理和实现方法,通过实验证明影子显示位图技术解决了识别图形元素时的误差问题,识别复杂图形元素的能力强,比常用图形识别技术容易实现.  相似文献   

18.
基于FP-tree的最大频繁项集挖掘算法   总被引:1,自引:0,他引:1  
现有的最大频繁项集挖掘算法在支持度阈值较大情况下已达到较高性能,但在支持度阈值较小时,由于候选项集的快速增长,其性能往往不理想。文章提出了一种基于频繁模式树(FP-tree)存储结构的最大频繁项集挖掘算法——DMFIF算法,将FP-tree各分枝作为初始候选项集,并按维数和支持度递减排序,结合子集剪枝策略,自顶向下搜索挖掘最大频繁项集。实验结果表明,该算法在低支持度阈值下稠密数据集中挖掘长模式具有较好性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号