首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
数据挖掘是用来发现数据库中隐含的各个数据之间的关系和特性,聚类分析是数据挖掘所要完成的工作之一.选取了三个并行聚类分析算法并研究了与之对应的并行算法,然后讨论了并行算法的性能,并得到了一些实验结果.最后提出了一个新的并行算法,相比较其它并行聚类算法,本文所提出的算法是最有效的.  相似文献   

2.
从大规模数据库中挖掘关联规则是数据挖掘研究的一个重要问题.基于内存共享的对称多处理器系统SMP是目前广泛应用的并行计算系统,在关联规则串行挖掘算法Apriori的基础上,针对SMP系统设计一种基于Hash树的并行算法.理论分析和实验表明算法是有效的,具有良好的加速比.  相似文献   

3.
针对传统决策树SPRINT(Scalable Parallelizable Induction of Decision Trees)算法不能处理海量地学数据挖掘的问题, 设计实现了基于G4ICCS(Geology Geography Geochemistry Geophysics Information Cloud Computing System)的决策树并行分类算法PSPRINT。该算法使用哈希表存储连续属性分割点两侧的数据记录, 为并行节点的分割提供依据, 在MapReduce架构下解决了海量地学数据挖掘问题。实验结果表明, 在模拟的云计算环境下, 决策树并行算法可以处理海量地学数据分类问题, 并获得较好的稳定性和较高的处理速度。  相似文献   

4.
夏龄 《科学技术与工程》2012,12(35):9545-9551
数据挖掘并行算法,应该以不牺牲挖掘效率和挖掘质量为前提。通过对数据挖掘原理和并行化的深入研究,在考虑到挖掘效率,负载平衡,运行环境,节点状态等多方面因素的基础上,提出了一种新的基于动态调度的数据挖掘并行算法。该算法以规模较小的子数据集为并行挖掘单元,各个并行单元之间采用全局通讯模式—Master-Worker模式来进行互相通信。降低了并行挖掘的通信成本,提高了挖掘的效率,缩短了挖掘的时间。同时该算法对不断变化的节点状态适应能力强。最后,实验结果验证了该算法的有效性以及在大数据集挖掘应用中的优越性。该算法不但保证了挖掘结果的正确性,而且具有较高的加速比。  相似文献   

5.
移动数据具有数量庞大、类型多样、时效性强和高价值等特点.移动通信数据是一种重要的移动数据,对高效地存储和访问移动通信数据进行研究,并在此基础上更加有效地开展移动数据挖掘的相关研究,具有重大现实意义.当前,使用并行数据挖掘技术进行数据挖掘得到普遍认可,但并行数据挖掘技术需要较高的硬件成本,并行算法代码调试和优化较为困难.为此提出大规模移动通信数据的单机实现MCDS(mobile communication data processing system).MCDS基于GraphChi,改进了数据格式、分片机制、数据分片换入换出机制.实验结果验证了MCDS的有效性,为移动数据挖掘提供了切实可行的实验环境.  相似文献   

6.
 因特网上的数据越来越多、越来越复杂,这些异构、动态、分布的信息使得传统数据挖掘方式已经不能达到实际要求。本文提出了一种面向web 数据挖掘的改进型迭代算法,将迭代方法与多服务器并行算法进行结合,并采用该算法建立了一个支持并行关联规则的web 数据挖掘模型,融合存储节点本地计算的思想。实验证明,该模型能够提高web 数据挖掘的效率,并有随着数据量增加执行率升高的特点。  相似文献   

7.
着重阐述在数据挖掘阶段提出并改进基于关联规则的Apxioxi并行算法、基于分类的判定树归纳算法和基于聚类的K簇算法,并将几种算法综合应用到智能信息处理过程中。  相似文献   

8.
主要研究了求复函数方程的根的串行和并行算法,探讨了并行算法中的任务分配方案、负载平衡等问题,并对串行算法和并行算法的实现结果进行了比较和分析。  相似文献   

9.
并行算法是当前研究解决算法效率问题的成熟技术之一。为提高GEP算法解决复杂函数优化问题的效率,将并行算法引入多细胞基因表达式编程函数优化问题,解决传统计算形式不能充分发挥多核处理器性能的问题。通过分析多细胞基因表达式编程并行算法的机理和MPI和Open MP混合并行模型,设计与实现多细胞基因表达式编程函数优化的并行算法(Parallel Multicellular Gene Expression Programming algorithm for Function Optimization)PGMFO。实验结果表明针对复杂的函数优化问题,在不影响精度和收敛性的情况下,PGMFO算法比原有的算法效率高出10%~20%。  相似文献   

10.
Apriori是挖掘关联规则最经典的算法之一,针对该算法存在的瓶颈问题研究了基于MapReduce编程框架的简单Apriori并行算法;并在简单Apriori并行算法的基础上提出一种采用固定多阶段结合挖掘策略的改进算法——多阶段并行算法。实验结果表明,改进算法能缩短挖掘时间,提高执行的效率。  相似文献   

11.
AGM算法和HSIGRAM算法是两个经典的频繁子图挖掘算法,在基于图的数据挖掘中有重要的应用.从算法思想和应用技术两个方面分析了AGM算法和HSIGRAM算法的异同点,结合基于图的数据挖掘的特性,提出针对这两个算法的改进策略.  相似文献   

12.
遗传算法在数据挖掘中的应用   总被引:1,自引:0,他引:1  
本文对数据挖掘进行了概述,阐明了数据挖掘的概念、方法及其重要性。其次介绍了数据挖掘中的一个重要算法——遗传算法。对遗传算法的产生与发展以及主要理论等进行了简要的介绍,提出了基于遗传算法的关联规则的提取方法。最后结合实例给出了用遗传算法进行关联规则的挖掘方法。  相似文献   

13.
为了满足不同用户在不同条件下对空间数据挖掘的不同要求,该文提出空间数据挖掘视角。空间数据挖掘视角在描述不同数据挖掘需求的基础上,利用一定的数据挖掘算法,从大量空间数据中发现不同粒度的空间知识。首先研究空间数据挖掘视角的内涵和外延,其次给出空间数据挖掘视角的算法,最后把空间数据挖掘视角应用于滑坡监测数据的挖掘,结果令人满意。  相似文献   

14.
孤立点检测是数据挖掘研究中的一项重要内容,其目标是发现数据集中行为异常的数据对象.本文在局部稀疏系数算法的基础上提出了基于局部最大距离的局部孤立点检测算法,该算法提出检测孤立点只需计算它的最近邻居对象的最大距离.实验结果表明,该算法发现局部孤立点是高效的。  相似文献   

15.
Recent advances in computing, communications, digital storage technologies, and highthroughput dataacquisition technologies, make it possible to gather and store incredible volumes of data. It creates unprecedented opportunities for largescale knowledge discovery from database. Data mining is an emerging area of computational intelligence that offers new theories, techniques, and tools for processing large volumes of data, such as data analysis, decision making, etc. There are many researchers working on designing efficient data mining techniques, methods, and algorithms. Unfortunately, most data mining researchers pay much attention to technique problems for developing data mining models and methods, while little to basic issues of data mining. In this paper, we will propose a new understanding for data mining, that is, domainoriented datadriven data mining (3DM) model. Some datadriven data mining algorithms developed in our Lab are also presented to show its validity.  相似文献   

16.
针对商业库存数据库中存在大量冗余特征和噪声,许多数据挖掘算法对于目标数据的维度非常敏感,随着数据特征的增加,算法的时间空间开销也急剧增加.商业库存决策支持数据挖掘算法利用粗糙集技术对数据作预处理,分析过滤这些冗余的例子,减少了噪声的干扰,减少了训练数据,运用粗糙集的分类算法和浮动搜索算法对浮动搜索算法进行了改进.并用此算法进行了仿真实现,验证了改进后算法的优越性.  相似文献   

17.
Parallel frequent pattern discovery algorithms exploit parallel and distributed computing resources to relieve the sequential bottlenecks of current frequent pattern mining (FPM) algorithms. Thus, parallel FPM algorithms achieve better scalability and performance, so they are attracting much attention in the data mining research community. This paper presents a comprehensive survey of the state-of-the-art parallel and distributed frequent pattern mining algorithms with more emphasis on pattern discovery from complex data (e.g., sequences and graphs) on various platforms. A review of typical parallel FPM algorithms uncovers the major challenges, methodologies, and research problems in the field of parallel frequent pattern discovery, such as work-load balancing, finding good data layouts, and data decomposition. This survey also indicates a dramatic shift of the research interest in the field from the simple parallel frequent itemset mining on traditional parallel and distributed platforms to parallel pattern mining of more complex data on emerging architectures, such as multi-core systems and the increasingly mature grid infrastructure.  相似文献   

18.
医疗数据中知识发现的研究   总被引:1,自引:0,他引:1  
介绍了ID3决策树算法建立决策树的基本原理和改进方法,利用改进的决策树算法对心脏病医疗诊断数据进行数据挖掘·采用VisualC++6 0进行编程建树,得到了一些有实际参考价值的诊断规则,获得了较高的分类准确率,证明了决策树算法在智能医疗诊断数据挖掘领域有着广泛的应用前景·  相似文献   

19.
关联规则是数据挖掘的主要研究方面,已往对关联规则的研究主要集中在挖掘征关联规则上,事实上,负关联规则在应用中的地位也是非常重要的  相似文献   

20.
一种基于层次聚类的流数据挖掘方法   总被引:1,自引:0,他引:1  
流数据的特点在于数据流快速、有序地到达,并且数据海量,许多应用领域中生成的数据都可以归结为此类型.数据挖掘技术可以从海量的数据中发现有意义的知识模型,传统的数据挖掘算法通常是针对静态数据集,对流数据却无法有效地处理.文章试图从层次聚类角度处理流数据,并探讨了一种基于最小代价函数的层次聚类算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号