首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 812 毫秒
1.
基于条件模式树的最大频繁模式挖掘算法在挖掘过程中将扫描事务数据库两次,且产生了大量的候选项目集,产生最大频繁模式过程中比较次数较多,总体效率较低.提出改进后的最大频繁模式挖掘策略,利用二维表保存事务出现项目的情况,通过最大频繁模式的相关性质减少了挖掘的项数及产生的频繁模式集,减少比较的次数.  相似文献   

2.
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,如果采用Apriori类的候选项目集生成一检验方法,则候选项目集生成的代价通常很高.为寻求避免生成大量候选项集或生成频繁模式树的挖掘算法,提出一种从事务项集交集求最大频繁项集的迭代算法DIIP(Datasets Iteration and Intersection Pruning Algorithm),通过不断缩减事务集数据量和尽可能早地对项目集进行修剪实现最大频繁项集的挖掘,该算法有别于已有的最大频繁项集经典算法,实验表明该算法有效可行.  相似文献   

3.
针对模糊频繁集的挖掘问题,提出一种有效的算法FMF.该算法采用FFP-树结构,将与模糊项目相关的事务的序号保存在树结点中.算法通过直接找到所有包含模糊项集的全部事务来计算该项集的支持度,不必扫描整个数据库,提高了模糊频繁项集挖掘的速度.  相似文献   

4.
产生频繁项目集是关联规则挖掘中的一个关键步骤.在对Apriori算法分析的基础上,提出了一种基于集合和位运算的频繁项目集挖掘算法.该算法用位视图表示使用了每个项目的事务,通过对位视图进行位运算来计算每个项目集的支持数,避免了Apriori算法中多次扫描数据库的问题.  相似文献   

5.
现有算法实现了事务内到事务间最大频繁项目集的转换,能够直接发现不同用户之间的关联关系.但在处理较大的事务数据库时,由于是在原数据库基础上进行关联分析,产生了大量的虚假规则.针对上述问题提出一种基于聚类分析的事务间关联规则挖掘算法,利用聚类分析将初始的复杂的数据集进行约简,去掉冗余数据,缩小数据集,避免了多次扫描数据库和...  相似文献   

6.
频繁项目集挖掘用于发现项目之间的关联规则.为了高效求解面向大数据的频繁项目集,本文提出一种新的基于FP_Growth的频繁项目集并行挖掘算法NPFP_Growth(New Parallel algorithm based on FP_Growth),该算法对频繁模式树的存储结构进行改进,基于Map/Reduce并行计算模型,利用HDFS实现数据存储,在各自计算节点上构造局部频繁模式树,求解该局部频繁模式树中每个分支的最长全局频繁项目集;对于全局非频繁项目集,计算其支持数,发送至相应计算节点进行支持度统计,从而以较为简单的算法实现频繁项目集并行挖掘.实验表明,NPFP_Growth算法具有较高的计算效率和良好的可伸缩性.  相似文献   

7.
从大型事务数据库中发现关联规则是数据挖掘中的一个重要课题,其核心问题是挖掘频繁项集.经典Apriori算法是有效的挖掘频繁项目集的算法.在分析Apriori算法的基础上,提出了一种利用二维数组来代替算法中的哈希树的方法,可以迅速产生二阶频繁项目集,改善了Apriori算法的效率瓶颈,大大提高了算法的执行效率.  相似文献   

8.
Fp-growth算法是当前挖掘频繁项目集算法中速度最快,应用最广,并且不需要候选集的一种挖掘关联规则的算法.但是,Fp-growth算法也存在着算法结构复杂和空间利用率低等缺点.在FP-tree结构的基础上提出了密集型数据最大频繁模式挖掘算法FP-DMax.算法FP-DMax只需要2次扫描数据库,在挖掘过程中不产生候选项集,大大提高了算法的时空效率.实验表明,算法FP-DMax在挖掘密集型数据最大频繁模式方面是高效的.  相似文献   

9.
研究分布式环境下约束性关联规则更新问题,包括数据库中事务增加和删除2种情况.引入向导集的概念,提出基于全局局部模式的约束性关联规则增量式更新算法DUCAR,其中包括局部约束性频繁项目集更新算法ULFC和全局约束性频繁项目集更新算法UGFC.该算法充分利用原先的挖掘结果提高更新效率,首先从最高维的频繁n项目集进行更新,在更新过程中考虑约束条件,结合剪枝算法,生成较少数量的满足约束条件的候选项目集.将该算法用Java加以实现,采用多组数据对此算法的性能进行测试,并与其他算法作对比实验,实验结果表明,该算法是高效可行的.  相似文献   

10.
为提高挖掘大项目集的速度,有效建立给定数据集中各项集之间的关联规则,提出了一种0-1矩阵关联规则数据挖掘算法.算法将事务数据库转化成M×N的矩阵,构造一个矩阵关联图表示频繁1-项目集中每两个项目之间的关联关系,通过遍历构造的关联矩阵有效地缩减事务数据库的大小,产生所有的频繁项集.利用模拟实验结果证明了所提算法可行性及有效性.  相似文献   

11.
数据预处理在商业企业数据仓库的应用   总被引:1,自引:2,他引:1  
数据预处理是数据挖掘过程中重要环节 ,对数据预处理技术进行研究具有现实意义。文章在介绍数据预处理方法的基础上 ,结合大型商业营销企业数据仓库数据的特点和数据挖掘过程中对数据的要求 ,详细论述了数据预处理技术在大型商业营销企业数据仓库中的应用 ,提出改善数据质量是预处理技术的关键。  相似文献   

12.
数据是高校管理信息化产生的最重要的无形资产,数据的丢失或者损坏都将极大地损害教学、管理和科研工作的正常开展.Oracle RAC是目前使用最为广泛的数据库集群化管理方式,在此基础上开展DataGuard数据保护技术的应用研究,可以弥补集群数据库环境在数据容灾、备份和故障恢复方面的不足,提升数据的安全性,确保高校各类应用系统的正常运行.  相似文献   

13.
随着人类社会逐步迈入以情感计算、自然语言处理等智能技术为核心支撑的人工智能时代,数据的战略资源地位日益凸显,数据治理已成为推进高校教育治理现代化的关键工具。人工智能赋能高校数据治理的基本逻辑主要体现在数据管理、数据质量、数据决策与数据服务4个层面。高校数据管理忽视“多方协同管理”、缺乏相对统一的数据质量标准、数据决策在权责限定与顶层设计方面存在缺失、数据服务潜能激发不力制约数据价值高效释放等可被视为人工智能赋能高校数据治理的现实挑战。对此,应创设落位智能共管的高校数据管理职能优化机制、完善校本化高校数据挖掘与共享质量标准、构建基于责权厘定的智能化数据决策体系、优化指向数据价值释放的智能数据服务体系。  相似文献   

14.
从一般数据库管理的角度出发,论述Excel管理数据库的方法。这种“表格”式的数据库管理方法将提供给用户一种新颖的设计方法和简单的使用操作。具有很大的推广价值。  相似文献   

15.
石油勘探技术发展迅速 ,需要一个集地震、测井、地质 3种数据为一体的勘探数据库来支持新的研究工作 .对包括地震资料处理、解释等资料的存储、应用方法进行了探索 ,提出了一种适合于中小油田的地震数据管理方案 .通过分析地震资料处理、解释产生的各类数据及其特点 ,从存储管理方法、数据规范化、质量控制方法、应用支持方法、数据服务方法等方面进行了详细论述  相似文献   

16.
讨论了文题实现方法,介绍了该数据库的总体结构。CPPDB利用dBASE Ⅲ支持建库,数据独立性高,修改、扩充方便。CPPDB存储了468种物质的29种物性数据,具有较强的物性估算和图形输出功能。  相似文献   

17.
数据挖掘和数据仓库的关系研究   总被引:1,自引:0,他引:1  
阐述了数据挖掘和数据仓库的有关技术,研究了数据挖掘和数据仓库的相互关系,说明了数据挖掘系统和数据仓库应统一分析和设计.  相似文献   

18.
数据仓库清洗技术讨论   总被引:4,自引:0,他引:4  
数据仓库建设过程中最关键的环节是数据集成,本文重点分析了数据清洗需要解决的问题及涉及的主要技术,针对数据库的数据模型与数据仓库模型的区别讨论了利用元数据的映射规则的数据清洗方法.  相似文献   

19.
数据仓库数据加载技术   总被引:2,自引:0,他引:2       下载免费PDF全文
数据仓库中的数据不是传统数据库中数据的简单堆积,其数据的组织必须方便基于数据仓库基础之上的数据挖掘和商业智能工作,为决策者提供访问、分析及共享信息的能力,从而发挥数据仓库的真正功效。成功构造一个数据仓库的关键在于自始至终理解用户需要,紧紧围绕用户目标这一主题进行数据的搜集和存储。首先分析数据仓库的特点及拥有的数据类别及组成,重点介绍如何从现有数据库中有效地将数据引导至数据仓库的方法和策略,具体给出了数据仓库中5种不同类别数据的加载方法。  相似文献   

20.
随着数据挖掘技术研究的进步与发展,并伴随着大数据概念的提出,将为数据挖掘技术的发展和应用带来一个很大的机遇,数据挖掘技术将进入一个新的发展时期.文章全面介绍了大数据,数据挖掘的基本概念以及数据挖掘的分析方法,最后给出了大数据时代的挖掘技术的应用领域及将来发展方向.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号