首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。  相似文献   

2.
传统技术无法适应动态变化的网络演化特征,容易引入很多无关节点连接信息,合理设定参数非常困难,导致动态演化特征挖掘结果不可靠。为此提出一种新的大规模并行网络动态演化特征挖掘技术。在建立的大规模并行网络中,把网络节点划分成普通节点和簇头节点,普通节点加入大规模并行网络后,被看作簇头节点,只和某个簇头构建链路,通过多跳实现数据转发,依据择优添加连接和反择优过滤节点演化。针对大规模并行网络动态演化特征,提出挖掘模型,通过初始权重对节点在网络中的初始化状态进行描述,利用突发权重,依据时间独立性对动态演化特征的突发性进行描述,采用密集权重对网络在局部时间内节点连接的密集程度进行描述,通过连续权重对网络在相同演化期间体现的连续性进行描述,依据总权重值实现动态演化特征的挖掘。实验结果表明,所提技术挖掘可靠性和实用性强。  相似文献   

3.
传统技术无法适应动态变化的网络演化特征,容易引入很多无关节点连接信息,合理设定参数非常困难,导致动态演化特征挖掘结果不可靠。为此提出一种新的大规模并行网络动态演化特征挖掘技术。在建立的大规模并行网络中,把网络节点划分成普通节点和簇头节点,普通节点加入大规模并行网络后,被看作簇头节点,只和某个簇头构建链路,通过多跳实现数据转发,依据择优添加连接和反择优过滤节点演化。针对大规模并行网络动态演化特征,提出挖掘模型,通过初始权重对节点在网络中的初始化状态进行描述,利用突发权重,依据时间独立性对动态演化特征的突发性进行描述,采用密集权重对网络在局部时间内节点连接的密集程度进行描述,通过连续权重对网络在相同演化期间体现的连续性进行描述,依据总权重值实现动态演化特征的挖掘。实验结果表明,所提技术挖掘可靠性和实用性强。  相似文献   

4.
面向CPU+GPU异构计算的SIFT   总被引:1,自引:0,他引:1  
依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍.  相似文献   

5.
空间模式匹配在各类基于位置的服务中有广泛的应用,但在面向空间大数据时,现有空间模式匹配算法的效率难以满足实际要求.针对上述问题,采用并行计算框架Spark,设计基于空间模式边匹配并行的空间模式匹配算法PMSJ(Parallel Multi Star Join). PMSJ算法将空间模式匹配问题分解为可以独立、并行执行的称为边匹配的子问题,将计算量分散至集群中各个计算节点以提高计算效率.具体地,PMSJ将边匹配分为针对空间区域的最小边界矩形匹配与针对具体空间对象的边匹配两个并行步骤,并在计算边匹配前对最小边界矩形匹配的结果进行剪枝,排除无法产生完整空间模式匹配的匹配对.在四个真实数据集上的实验结果表明,在面向空间大数据时,PMSJ算法的效率优于现有算法.  相似文献   

6.
概念格是形式概念分析中的核心数据结构.对此提出运用划分分治和分层约束的方法研究MapReduce框架下概念格并行生成算法以有效地构造概念格.将形式背景按对象划分成外延独立子背景后并行计算子背景上的临时概念,融合各节点临时概念形成全局概念.全局概念按照各概念外延基数进行分层,通过分层约束计算概念父子节点的搜索范围和并行搜索各层概念的父子节点,进而构建概念格.算法基于MapReduce框架实现并在公共数据集上进行测试,实验结果表明,基于概念分层方法的概念格并行构造算法能够对大数据形式背景有效地进行处理.  相似文献   

7.
MapReduce并行计算模型在大规模分布式数据处理中应用广泛,但该模型不能很好地支持连接操作,特别是面对倾斜数据时,原有的分区算法容易造成处理节点间的负载不均衡。针对这一问题,提出一种基于key代价的负载均衡等值连接算法,对Map端中间结果进行采样,根据采样结果计算每一key值的负载代价,并在此基础上,设计一种动态划分函数,对不同的key值按照负载代价均匀划分到各个计算节点,实现了负载均衡。实验结果表明,在同构集群下,提出的算法在负载均衡方面具有较好的效果.  相似文献   

8.
并行空间连接查询处理   总被引:1,自引:1,他引:1  
基于顺序空间连接查询的效率不能令人满意,利用并行控制提高空间连接查询效率。空间连接查询的并行处理方法最重要的特征是任务分配根据多路平面扫描顺序,避免了连接处理过程中处理器之间的通信花费,提出基于空间连接花费模型的任务分配方法和基于花费估计的动态任务分配策略,并给出了花费模型。该模型经实际应用效果明显。  相似文献   

9.
针对基于支持向量机的分类器训练时间过长问题,提出一种并行训练策略.该策略在并行程序设计上采用主从模式,将训练任务划分成若干个子任务,分配到多个从节点上计算,最后由主节点将各从节点上的训练结果收集,生成分类器模型.采用这种算法,使用了多组稀疏型和连续型的数据集,经过在自强3000高性能计算机上测试,实验结果表明该算法不仅能够保证多分类的高准确率,而且缩短了训练时间.  相似文献   

10.
研究空间拓扑相交关系计算的并行化,可以缩短处理大规模地理空间数据的时间,对于高效地应用GIS空间数据有着重要的现实意义.本文以开源软件GRASS GIS为实验平台,在集群环境下引入MPI并行库,采用不同的数据划分策略对空间拓扑相交关系计算算法进行并行研究与实现.首先分析了串行算法的特点及数据结构,验证了基于几何对象的数据划分策略在该算法上的可行性;其次针对基于几何对象的数据划分策略存在的问题,即较少考虑空间几何实体对象的数据量均衡性,提出基于弧段的数据划分策略;最后通过加速比指标,对两种策略划分方式进行对比分析,验证基于弧段的划分策略的正确性和高效性.经过实验可知,相比基于几何对象的数据划分,基于弧段的数据划分能得到更好的加速比.  相似文献   

11.
在面向计算部署到数据节点端执行的分布式并行环境下,提出一种基于图着色理论的适用于矢量空间数据的部署方法,将空间数据粒度的部署问题转化为图顶点着色的过程,提高了任意空间区域的信息查询效率.给出基于图着色理论的数据部署方法,并通过节点的任务量进一步改进算法,使得该算法可实现海量空间数据粒度的离散化部署,提高了空间数据检索和查询的并行化程度,充分利用了并行计算资源.  相似文献   

12.
针对传统数据流频繁项集计算中效率低、内存消耗大等问题,本文采用并行计算的思想设计了一种基于MapReduce的数据流频繁项集挖掘算法,首先,对进行数据分块压缩和传输,其次,将数据频繁项的计算分布在负载均衡的数据节点,可以有效保证数据的执行效率.最后通过一次调度处理合并各个节点产生的频繁项集并进行合并.理论分析和实验对比结果均表明,该算法对于并行处理数据流频繁项集的统计问题是有效可行的.  相似文献   

13.
全景图拼接是通过对序列图像进行拼接,从而实现对场景全方位环视的技术,是计算机视觉和图像处理的研究热点.针对大规模高分辨率的序列图像拼接,单计算机的拼接效率已经难以满足实际应用需求的问题,提出了一种基于InfiniBand高速网络通信的多机并行架构实现全景图并行拼接的解决方案.首先,对全景图拼接的关键步骤进行并行性分析,将全景图拼接尽可能划分成细粒度和高并行度的子任务;然后,通过并行架构中的控制节点和计算节点进行任务的分配和执行;最后,针对随着图像数据量增大,采用传统的TCP/IP网络传输,计算节点间的数据传输速率低下的问题,设计了基于InfiniBand与TCP/IP结合的高速网络传输模块,有效地提高节点间的传输速率.实验结果表明,在此并行架构上实现的分布式计算,能够有效地提升全景图拼接效率,有明显的实际应用价值.  相似文献   

14.
针对Range partition算法不能优化数据集严重倾斜情形下的两表连接效率问题, 提出一种改进的数据倾斜连接算法. 该算法将倾斜数据和非倾斜数据区别处理, 利用复制、 广播方法将数据发送到每个Reduce节点, 通过一轮Map/Reduce任务完成所有的连接操作, 可有效均衡每个Reduce处理量, 解决了数据严重倾斜对两表连接性能的影响. 与传统的分区连接算法比较结果表明, 该算法有效.  相似文献   

15.
红外桥梁目标识别在多DSP系统上的并行实现   总被引:5,自引:1,他引:4  
针对多总线多DSP实时图像识别系统,研究了桥梁目标识别的并行算法。算法采用流水线技术,在其设计过程中重点考虑将算法划分成独立的模块化的子任务,并将任务均衡地分配给各处理器。为进一步提高算法速度及流水线效率,对算法进行了优化。实验结果表明本并行算法具有成本低、效率高的特点。  相似文献   

16.
压铸过程充型模拟技术存在的主要问题之一是迭代过程缓慢而导致计算效率较低。该文通过对压铸充型的数学模型和计算模型进行分析 ,利用机群计算平台 ,提出并建立了一种并行搜索计算模型。该模型在原有串行算法的基础上 ,通过效率参数的适当选择和调整 ,实现了利用并行计算优化串行过程的目的。这种算法可以充分发挥各个结点的计算能力 ,有效降低结点之间的通信时间。通过对实际压铸零件进行的计算测试表明 ,该算法在保证原有计算精度的前提下 ,可以在一定范围内极大地提高计算效率。  相似文献   

17.
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能.  相似文献   

18.
朱道恒  李志强 《科学技术与工程》2021,21(34):14625-14633
针对最大互信息系数(Maximal Information Coefficient,MIC)近似算法在大规模数据场景下的计算时间复杂度高,计算时间增长快的问题,提出一种最大互信息系数并行计算(The Parallel Computing Maximal Information Coefficient,PCMIC)方法。分别在Spark和Spark-消息传递接口(Message Passing Interface,MPI)计算框架中,在不同的数据规模和不同的噪声水平下,利用PCMIC算法对十四种典型的相关关系做并行计算。另外在不同节点数的情况下,选择两种具有代表性的相关关系来测试PCMIC算法在两种计算框架中的性能。实验结果表明:(1)PCMIC算法在两种框架下的运算效果与原始MIC近似算法相比,同样具有普适性和均匀性,而且具有良好的可扩展性。(2)随着数据规模和节点数的增加,PCMIC算法在两种框架中运算的时间增长明显比MIC近似算法慢,而且在Spark-MPI框架下的并行加速比和效率略优于Spark。(3)Spark能够支持MPI任务的调度,为研究不同并行计算框架之间的融合奠定了一定的理论和应用基础。  相似文献   

19.
本文以同步发电机为研究对象,通过对模型系统结构的构建和分割,建立起数学模型仿真的任务调度图,并结合动态负载平衡调度策略,进行了同步发电机的任务调度,通过对并行运算的加速比和并行效率进行分析,从而验证了并行运算在同步发电机任务调度仿真中应用的可行性。  相似文献   

20.
基于任务分类思维的云计算海量资源改进调度   总被引:2,自引:2,他引:0  
对云计算海量数据下的资源调度的研究过程中,进行资源调度时资源分配无法到达合理化调度,存在资源调度效率低的问题。提出分类思维的云计算海量数据资源优化调度方法。该方法引入膜计算概念,将云计算下的海量资源调度的总任务划分为多个子任务,并详细计算每个子任务的资源调度任务量。将优化调度系统内部分解为主膜和辅助膜,利用蝙蝠算法在辅助膜内进行资源分配个体寻优,并将优化后的资源分配最优个体传送到主膜间进行云计算海量数据下的资源分配优化。实验仿真证明,基于改进膜计算蝙蝠算法的云计算海量数据下的资源优化调度方法调度效率高,分配较为均衡。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号