首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
文章提出一种基于粒子群方法的投影寻踪聚类算法.该算法利用粒子群算法的全局寻优能力搜索投影方向,以及利用投影寻踪算法将高维数据投影到低维,从而能有效地揭示多因素复杂数据的线性和非线性结构的特点,得到较直观的聚类模式.通过两个实例,验证了算法的可行性和有效性.  相似文献   

2.
决策树分类方法是实现数据挖掘中分类任务的一种有效方法,但在大规模测试数据集上运行时其实现性能受到严重影响.本文设计和实现一种基于MapReduce架构的并行决策树分类算法.实验结果表明:基于MapReduce的决策树分类算法比同类算法在其他并行编程模型下的实现在计算节点较多的情况下能得到更优的性能.  相似文献   

3.
水资源配置决策的粒子群与投影寻踪耦合模型   总被引:1,自引:0,他引:1  
水资源配置决策涉及资源、经济、社会、生态环境等目标,属高维、非线性、非正态的系统决策问题.为此,利用投影寻踪技术对此决策问题进行降维处理,并采用粒子群算法优化投影指标函数,建立了水资源配置决策的粒子群与投影寻踪耦合模型.该模型直接由样本数据驱动,通过最佳投影方向计算决策方案的最佳投影值,可达到在低维空间进行水资源配置决策的目的,且易于编程实现.南水北调中线河南省水资源配置决策应用结果表明,粒子群与投影寻踪耦合模型的决策结果比模糊优选模型的决策结果合理,且分散性大.  相似文献   

4.
基于GPU的SVM参数优化并行算法   总被引:1,自引:0,他引:1  
为了缩短支持向量机(support vector machine,SVM)参数优化时长,提高SVM参数优化的效率,提出了基于图形处理单元(graphic processing unit,GPU)的SVM参数优化并行算法.分析了基于网格搜索和粒子群优化算法的并行特性,基于GPU设计了该优化算法的并行化方案,并在单GeForce GT 650M GPU卡上进行了试验验证.结果表明,并行化网格搜索和并行化粒子群参数优化算法不仅可以取得与非并行化参数优化算法相同的优化效果,而且执行时间大大减小,其中并行粒子群参数优化算法的加速比可高达26.85,大幅提升了SVM的参数优化效率.  相似文献   

5.
为了提高土壤质量评价的准确性,研究土壤质量的评价方法,以全国土壤质量等级评价标准为评价指标样本,将投影寻踪、粒子群算法和插值算法相结合,建立土壤质量等级评价的粒子群投影寻踪插值模型,计算最佳投影值与土壤质量等级的关系。结果表明,模型建立和评价方法切实可行,对样本的评价结果可合理解释,验证了该方法的有效性。  相似文献   

6.
针对粒子滤波算法在重采样环节因粒子交互而不能充分并行处理的问题,提出了基于图形处理器(GPU)的并行骨干粒子群优化粒子滤波算法(BBPSO-PF).首先利用骨干粒子群算法具有易并行的特点优化粒子滤波算法重采样环节,从算法结构上提高粒子滤波算法的并行度.然后利用GPU的多线程架构并行处理每个粒子群的数据,每个线程负责一个粒子群,使粒子群之间得到并行化处理,解决粒子滤波重采样因粒子交互而不能充分并行的缺点.最后利用GPU中对齐与合并的内存访问原则,给粒子群设计高效的数据存储结构,降低内存访问事务,提高粒子群的数据存取速度,进一步提高算法实时性.该方法在保证算法精度前提下明显提高了算法的实时性.  相似文献   

7.
基于MapReduce并行的Apriori算法改进研究   总被引:2,自引:0,他引:2       下载免费PDF全文
基于MapReduce实现的Apriori简单并行算法,产生了大量值为1的键/值对,影响了算法效率.提出一种分组统计策略的Apriori并行算法,有效地减少了键/值对的产生.实验结果表明,改进的基于MapReduce并行的Apriori算法在时间性能上有了很大的提升,并且随着集群节点的增加,算法的加速比线性提高.  相似文献   

8.
对岩爆有影响的三项主要因子:洞室最大切向应力与岩石单轴抗压强度的比值、脆性系数和弹性能量指数作为岩爆灾害预测的主要判别指标,通过粒子群优化算法和投影寻踪算法建立了相应的岩爆预测分析模型.该模型采用粒子群算法优化投影指标函数,确保了模型参数的准确性;同时利用逻辑斯谛曲线函数建立投影值与经验等级之间的非线性关系.研究表明,用粒子群投影寻踪回归模型进行岩爆预测,避免了传统预测方法由于主观原因造成的误差,预测精度较高.通过将所建模型应用到秦岭隧道和冬瓜山铜矿的岩爆预测中,得到与实际情况较符合的预测结果.  相似文献   

9.
针对短时交通流数据的高度复杂性、随机性和非稳定性,为了进一步提高短时交通流预测的精度,提出一种基于粒子群优化投影寻踪回归模型的短时交通流预测方法。通过灰色关联度分析确定交通流预测影响因子,然后采用粒子群优化算法构建非参数投影寻踪回归模型,并利用上海市南北高架快速路的感应线圈实测数据进行实验验证和对比分析。实验结果表明:PSO-PPR模型的短时交通流预测效果明显提高,其平均预测精度分别比ARIMA模型和BPNN模型提高37.8%和27.2%。  相似文献   

10.
MapReduce是一个并行分布式计算模型,已经被广泛应用于处理两个或多个大型表的连接操作.现有的基于MapReduce的多表连接算法,在处理链式连接时,不能处理多个大表的连接,或者需要顺序运行较多的MapReduce任务,效率较低.为此提出了一种基于MapReduce的多表连接算法——PipelineJoin,高效地实现任意多个大表的链式连接.PipelineJoin采用流水线模型和调度器来实现MapReduce任务的流水线式执行,从而有效提高多表连接的效率,同时可以较好地克服链式多表连接算法的缺陷.最后,在不同规模的数据集上进行了大量实验,实验结果表明PipelineJoin算法与原有链式多表连接算法相比,可以有效减少连接所需的时间.  相似文献   

11.
针对MapReduce框架与传统关系型数据库兼容性不好的问题,提出了一种基于分块结构的分布式关系数据库ChunkDB.并对MapReduce架构进行了扩展设计,使ChunkDB与MapReduce有效结合,将MapReduce的扩展性、易操作性、高并行性与关系数据库的索引等查询优化优势相结合.实验证明基于MapReduce的ChunkDB数据库能够为数据仓库应用提供快速高效的并行查询.  相似文献   

12.
针对大数据环境下并行支持向量机(support vector machine,SVM)算法存在噪声数据较敏感、训练样本数据冗余等问题,提出基于粒度和信息熵的GIESVM-MR(the SVM algorithm by using granularity and information entropy based on MapReduce)算法.该算法首先提出噪声清除策略(noise cleaning,NC)对每个特征属性的重要程度进行评价,获得样本与类别之间的相关度,以达到识别和删除噪声数据的目的;其次提出基于粒度的数据压缩策略(data compression based on granulation,GDC),通过筛选信息粒的方式保留类边界样本删除非支持向量,得到规模较小的数据集,从而解决了大数据环境下训练样本数据冗余问题;最后结合Bagging的思想和MapReduce计算模型并行化训练SVM,生成最终的分类模型.实验表明,GIESVM-MR算法的分类效果更佳,且在大规模的数据集下算法的执行效率更高.  相似文献   

13.
针对流数据规模参差不齐、 流量动态变化且突发性较强的特点, 提出一种可伸缩的动态MapReduce计算模型, 支持大规模动/静态数据在线处理. 基于Event推送方式, 利用Netty底层异步通信方式等技术, 建立在线MapReduce数据传输机制, 进一步实现其原型程序, 解决了大规模分布式计算程序的快速在线传输和数据分发等问
题, 支持流数据动态分发机制, 为动态MapReduce模型提供支撑. 与HadoopOnline系统的传统Socket管道传送方式相比, 该方法能有效提高作业之间数据的传送效率, 从而提高大规模流数据处理的实时性.  相似文献   

14.
云环境中基于金字塔模型的影像数据存储方法   总被引:1,自引:0,他引:1  
随着卫星遥感获取技术的发展,影像数据量呈几何式增长,传统数据存储技术已经无法适应海量影像数据的处理要求.结合金字塔模型和MapReduce架构提出了一种适用于云计算环境的分布式并行存储方法—BMLStorage(storage based on MapReduce and local file system),该方法基于金字塔模型对影像数据进行分层分块处理,并对所得瓦片重新编码.定义了一种新的存储规则,使得所有瓦片可以按照此规则利用Hadoop中的MapReduce框架实现并行存储.实验表明,该方法与现有方法相比,在海量影像数据存储性能方面有一定的提高.  相似文献   

15.
提出一种MapReduce并行计算模型下基于R树索引的Skyline查询算法, 解决了海量空间数据集下执行Skyline查询效率低的问题. 通过建立R树索引实现空间数据不同粒度的范围剪枝, 有效降低了分布式Skyline查询需扫描的数据规模, 提高了在MapReduce模型下Skyline查询的执行效率. 在不同数据分布下进行对比实验的结果表明, 该方法比已有算法在执行效率上更具优势.  相似文献   

16.
以山影分析模型为例,探讨了地形分析模型的MapReduce并行化计算方法.基于Apache Hadoop开发了地形数据分析的原型系统,并初步部署形成了地形数据的分布式计算和存储环境.最后,以全国范围90m地形数据对系统进行应用测试,结果表明:基于MapReduce的分布式计算方法能够有效地提升地形数据的计算效率,特别在节点较多时效率提升更为明显.  相似文献   

17.
提出了一款基于Hadoop的并行数据分析系统——PDM.该系统拥有大量以MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线性回归算法和"多源最短路径"算法的原理和实现,其中,提出的"消息传递模型"能有效解决MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均值和决策树算法实现的"套餐推荐",利用并行PageRank算法实现的"营销关键点发现"等;最后通过性能测试,说明该系统适合高效地处理大规模数据.  相似文献   

18.
云计算框架大大改进了并行算法的实现难度,但是大部分算法有其局限性.介绍了MapReduce(映射化简)的基本实现原理和调度模型的缺陷,提出了基于支持向量机的的MapReduce进化算法,并给出了基本模型及实现.运用Hadoop云计算平台进行了仿真验证,实验结果表明,基于支持向量机的MapReduce计算框架在候选云节点的调度分配的准确性上有明显提高,并且加快了数据迭代的效率.  相似文献   

19.
在如何快速发现大规模网络的结构和特性问题中,网络规模及复杂度的快速增长给其分析研究带来了新的挑战.MapReduce及其开源实现Hadoop给大规模图的高效处理带来了希望.基于MapReduce框架的集群系统,提出了1种新的计算模型用于大规模图形的3-clique计算,来实现图挖掘.计算的基本步骤是:首先获取每个节点的第1跳信息,然后是第2跳信息,最后得到所有基于该节点的3-clique.该计算模型可以用来计算聚集系数,并且可以用于三大通话网络的挖掘.实验结果证明这种计算模型具有良好的可扩展性和性能.  相似文献   

20.
分布式并行计算是提高计算机性能常用的方法,但针对不同需求,并行程序的设计并没有统一的模型与方法,使得并行程序的编写完全依靠开发人员的经验。Google公司提出的分布式并行编程模型MapReduce能够完成特定类型的并行程序的开发与运行。使用哈希表对MapReduce分布式并行编程模型进行优化,减少中间结果中的碎片,并省略Combiner中间函数的调用,减少传输负载,提升运行效率,同时兼顾了Map函数与Reduce函数接口的属性,保持了MapReduce模型的并行性特点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号