首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
分析了利用互信息作为相似性测度进行医学图像配准的算法,给出了具体计算流程.针对其中互信息计算量大、耗时长的缺点,提出了一种运行于单机多核平台的快速并行配准算法.利用OpenMP(open multi-processing)构建了一个图像匹配的多核并行计算平台,并对配准程序中的互信息计算进行并行处理,最后完成配准.通过对图像匹配算法效率进行的评估实验,验证了多核并行计算技术能够提高医学图像配准的运行效率.结果表明,该方法既保证了配准精度,又能够较好解决配准速度慢的问题.  相似文献   

2.
基于数据依赖关系的程序自动并行化方法   总被引:1,自引:0,他引:1  
针对目前大量串行遗产程序无法在高性能并行计算机上高效运行的问题,提出一种基于数据依赖关系分析技术的程序自动并行化方法,采用数据依赖关系分析技术对串行程序进行分析,将串行程序中基本块分成两类:彼此间具有依赖关系的基本块和彼此间无依赖关系的基本块,通过对无依赖关系的基本块进行并行处理实现串行程序的自动并行化,从而解决了在对串行程序自动并行处理时开销增大的缺点,并得到较好的并行优化结果.实例分析结果表明,该方法可以识别出可并行执行的基本块,实现串行程序的自动并行化.  相似文献   

3.
为了快速求解线板型静电除尘器电场分布问题,采用OpenFOAM开源有限容积库及g++自定义静电除尘器电场分布求解器并行模拟计算。结果表明:串行计算与并行程序的计算结果完全吻合。在并行计算过程中,在处理器数量为2颗和4颗时会出现超线程加速比现象。随着并行处理器数量增加,并行加速比呈非线性增加,并行加速比先增加后减少。对于相同的收敛准则,高网格数量情况下的并行加速比小,并行效率低。  相似文献   

4.
非对称广义特征值问题的并行处理是并行计算结构力学的重要部分,这方面的工作目前在国内外研究得还很少.将串行计算中求解非对称广义值问题AX=λBX(A、B为n阶实矩阵)行之有效的QZ算法作了并行化处理,并就得到的并行QZ算法在Challenge L并行机上进行了试算.数值结果表明:当处理机个数为2或4时并行效率良好,但当处理机个数为8时并行效率不高.  相似文献   

5.
对无网格数值模拟的并行算法进行了详细研究.包括使用并行桶搜索算法进行节点搜索,使用并行几何搜索算法进行样点搜索,并行计算无网格形函数及其导数,边界条件的并行处理,使用并行预处理共轭梯度法求解方程组以及负载平衡等.最后给出了无网格数值模拟并行计算的实施流程和计算实例.计算结果表明,无网格数值模拟具有很高的并行性和很好的并行效率,计算规模越大,并行效率越高.  相似文献   

6.
基于并行迭代动态规划的聚合物驱最优控制求解   总被引:1,自引:0,他引:1  
针对迭代动态规划计算量大,耗费时间长的特点,基于实验室搭建的PC机群,以消息传递库MPICH为编程工具,搭建一个并行计算平台,给出一种主从式的并行迭代动态规划算法,利用该算法对聚合物驱最优控制问题进行求解,并与串行计算结果进行对比.结果表明:在大规模的优化问题中并行迭代动态规划算法与串行算法结果一致,但表现出较高的并行效率和加速比;并行算法求解的效率受到主节点分配任务时是否均衡的影响.  相似文献   

7.
ARM11 MPCore性能分析与优化研究   总被引:4,自引:4,他引:0  
ARM11 MPCore是最新的嵌入式多核处理器,传统的嵌入式软件在该平台上不能发挥该处理器的所有性能.针对这个问题,对ARM11 MPCore的基本运算能力与ARM9处理器进行了对比分析,提出了使用硬件向量浮点单元及并行计算的软件优化方法,实验结果表明优化后的MPCore浮点处理能力是ARM9系列处理器的浮点处理能力的10倍左右.对于多核架构,可以采用并行计算模型对软件进行优化,试验结果表明,对整数运算采用OpenMP并行计算模型优化后,实验程序的效率提高3.8倍左右.对于嵌入式多媒体处理,提出了使用硬件向量浮点单元对DCT运算进行优化,对视频解码、音频解码以及音视频同步显示采用并行处理的方法进行优化.实验结果表明,这两种优化方法能提高软件在ARM11 MPCore平台上的运行效率,提高了系统的整体性能.  相似文献   

8.
以Poisson方程边值问题的求解为背景,实现了有限元并行计算的MPI程序设计.通过生成一种特殊结构的刚度矩阵,并在此基础上,设计了一套有效的并行计算策略,使计算的并行性得到很好的开拓,实现了包括刚度矩阵的生成、刚度矩阵的三角分解以及解三角方程组的并行执行.程序在国家高性能计算中心(西安)的曙光3000上进行了数值试验,结果表明,随着开辟进程数目的增多,加速比变得比较理想,当进程数目为30时,表明该进程数目在最优进程值附近.在60台处理器(进程)上计算18万个节点的大规模问题时,共耗时176 96415s.  相似文献   

9.
为了充分利用多核并行计算的优势,提高科学计算中程序计算的速度,建立了基于消息传递接口的并行程序编译的循环分解算法.实验结果表明,循环并行执行的分解算法有效地利用了多核处理器的高速计算核心,与串行执行程序相比,并行程序的执行显著提高了程序的计算速度.  相似文献   

10.
大型水利水电工程全系统瞬变流并行计算   总被引:3,自引:0,他引:3  
为了解决采用单处理器计算机进行大型水利水电工程全系统瞬变流计算时速度慢和存储量小的问题,在对大型水利水电工程全系统瞬变流计算的并行性进行分析的基础上,建立了全系统瞬变流并行计算的模型。以某大型引水工程为例,根据负载平衡的原则划分并行计算任务,采用消息传递并行编程模式,通过调用M P I库函数实现并行计算部分间的消息传递。当使用两台计算机并行计算时,计算的加速比达到1.442,且并行和串行计算结果相同。  相似文献   

11.
比较分析了在不同网格大小介质模型情况下,分别采用串行计算、CPU 16个线程并行计算和4块GPU并行计算进行各向异性弹性波动方程正演模拟的执行时间差异。发现在网格点为2563的大模型上,用4块GPU的并行模拟计算相对16线程并行计算与串行计算的加速分别为30倍与156倍。表明多GPU并行算法可以显著缩短数值模拟时间,而且模型网格越大,加速效果越显著。因此,在单机环境下进行大尺度模型的各向异性弹性波正演模拟,采用多GPU并行计算方式是一个合适的加速选择。  相似文献   

12.
OpenMP中隐式数据并行编译策略   总被引:1,自引:0,他引:1  
为了实现OpenMPFortranAPI2.0中通过WORKSHARE语句提供的对隐式数据并行的支持,提出了计算划分原则、计算划分算法以及实现方案。还给出了针对编译中产生的冗余同步以及相容的DO循环等情况的优化技术。将实现方案与EFC(Intel产品编译器)进行了对比测试。结果表明,该并行编译策略有效地实现了对隐式数据并行的支持。所述优化技术能够提高并行程序执行效率:消除冗余同步对于负载不平衡的情况所提高的效率与各线程最小总等待时间成正比;合并循环体能提高7%左右的效率。  相似文献   

13.
针对卫星云导风反演算法规模大、 计算密集、 耗时长, 常规云导风反演串行算法效率低的问题, 根据云导风反演中各风矢计算相对独立的特征, 提出一种基于OpenMP框架的云导风反演并行算法. 通过对多组云图数据在多核CPU上反演结果进行分析表明, 该算法显著提高了云导风反演的效率.  相似文献   

14.
基于多Agent协同构建分布式并行遗传算法   总被引:2,自引:0,他引:2  
针对并行遗传算法中计算资源的分配问题 ,提出了分布式并行遗传算法结构。它由若干计算节点组成 ,每个节点包含若干运行子遗传算法的计算单元。节点的计算能力依照一定的并行模式映射到单元 ;各子算法则根据一定的拓扑结构进行个体交换。从多 Agent系统的观点看 ,计算单元是独立的 Agent,其并行运行涉及计算资源的分配 ,体现了算法对它们的协调 ;个体的迁移体现了它们之间的协作。并且分析了由两个单元构成的算法在不同并行模式和不同个体迁移因子下的性能。  相似文献   

15.
传统词袋模型已广泛地应用于图像处理领域,并取得较好效果.但在传统词袋模型中,仅考虑了串行计算,使得整个算法流程耗时较长.考虑现有的多核CPU资源,结合共享存储并行编程(OpenMP)并行框架,对词袋模型进行并行优化,并对其性能进行讨论.主要考虑对特征提取、特征聚类和图像直方图生成三个部分进行并行优化.通过对Caltech 100数据库进行实验,结果表明,该方法可以取得接近于CPU核数的加速比,因此减少了词袋模型的构造和图像直方图生成时间,相对于传统词袋方法提高了算法的效率.  相似文献   

16.
基于并行粒子群优化算法的变分资料同化   总被引:1,自引:0,他引:1       下载免费PDF全文
为了提升粒子群优化算法(PSO)应用到实际大气和海洋模式的资料同化时的计算时效性,针对一种最新提出的基于方向的粒子群优化算法(PSOBD),使用消息传递接口(MPI)和整体同步并行(BSP)计算模型,设计PSOBD的并行算法,较好地实现了BSP结构下PSOBD的全局通信操作。为检验并行化后的PSOBD的计算时效,将其用于潜水方程的资料同化并与基于串行的PSOBD的同化数值试验结果比较。大量的孪生同化试验结果的统计分析显示,并行化后的PSOBD与串行PSOBD一样能产生高质量的同化结果,且计算时效相对串行PSOBD提高了13倍以上。这一结果为PSOBD算法用于实际模式的四维变分资料同化(4D-Var)提供了依据。  相似文献   

17.
并行计算作为计算机行业未来发展方向的趋势已显而易见,而并行程序设计是研究的一个重要分支。介绍了ADPCM算法的基本概念,阐述了ADPCM算法并行化的设计与实现,分析了ADPCM并行算法的效率。  相似文献   

18.
考虑纯无网格并行计算在传热方程数值模拟中的应用. 首先将Taylor展开式保留到三阶导数, 拓展应用纯无网格有限点集法(FPM), 对三维热传导方程进行求解以提高数值精度; 其次引入MPI并行计算技术, 通过循环语句的并行, 采用多个CPU计算以提高计算效率, 得到一种针对三维热传导问题模拟的可靠、 高效性纯网格并行FPM算法. 在数值算例中, 先对不同区域上带不同边值条件的传热问题进行求解, 并与解析解对比, 分析给出算法的计算效率和误差; 然后用给出的并行算法对功能梯度材料中温度随时间演化过程进行模拟预测, 并与其他数值结果做比较, 以验证数值预测的可靠性.  相似文献   

19.
3D reverse time migration in tiled transversly isotropic (3D RTM-TTI) is the most precise mod-el for complex seismic imaging.However, vast computing time of 3D RTM-TTI prevents it from be-ing widely used, which is addressed by providing parallel solutions for 3D RTM-TTI on multicores and many-cores.After data parallelism and memory optimization, the hot spot function of 3D RTM-TTI gains 35.99X speedup on two Intel Xeon CPUs, 89.75X speedup on one Intel Xeon Phi, 89.92X speedup on one NVIDIA K20 GPU compared with serial CPU baseline.This study makes RTM-TTI practical in industry.Since the computation pattern in RTM is stencil, the approaches also benefit a wide range of stencil-based applications.  相似文献   

20.
ABEEMσπ/MM模型程序中,计算静电相互作用能非常耗费机时.针对原串行程序中多个循环相互嵌套的求解部分,进行循环带状划分并行化处理.经测试表明,利用新编制的并行程序进行动力学模拟,并行加速比以线性趋势提高、求解静电相互作用能速度大幅度加快、尤其是针对原子数较多的分子体系效果比较理想.利用36个CPU,对于位点数为10 000左右的蛋白质体系,进行1ns的动力学模拟,至少可以节省1年左右的时间,明显地提高了研究蛋白质体系性质的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号