首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 578 毫秒
1.
充分利用MPI(message passing interface)在并行环境下远高于单CPU的强大计算能力,探索基于MPI的并行系统结构,求解三维枝晶生长的高性能计算方法.通过多进程的并发执行,实现三维相场方程求解的并行计算,探讨MPI中点对点通信与集合通信在并行计算时数据传输的效率,讨论热噪声幅值Fu=0与Fu=10-3时三维枝晶生长过程.计算结果表明:基于MPI的并行算法可使模拟尺度达到1 000×1 000×1 000网格,大大提高可模拟尺度;采用集合通信模式比点对点通信模式具有更高的并行效率,更加适合大规模并行计算环境.  相似文献   

2.
针对二元合金三维相场模型模拟研究中存在的计算区域小、计算效率低,难以满足二元合金大规模模拟的需求,提出基于MPI+OpenMP混合编程模式的并行方法.在相同计算规模下对MPI和OpenMP并行技术的优缺点进行分析.在计算机集群环境下对MPI+OpenMP混合编程模式和纯MPI并行方法的并行效率进行对比和分析.结果证明:基于MPI+OpenMP混合编程模式可以有效地扩大二元合金三维相场模型的计算规模;在多核集群环境下,相对于纯MPI并行方法,MPI+OpenMP混合编程可以更加有效地利用多核集群的多层次结构,取得更高的加速比和计算效率.  相似文献   

3.
基于三维相场模型,使用MPI+CUDA异构协同并行技术,在GPU集群上建立三维合金定向凝固的MultiGPU计算模型,实现了Al-Cu二元合金三维定向凝固的模拟.再现了Al-Cu二元合金三维定向凝固的过程,以及不同取向晶粒间的竞争生长现象.通过与传统CPU串行计算模型相比较,验证了Multi-GPU计算模型的计算效率和加速效果.实现了二元合金定向凝固的加速模拟计算,其加速比最大可达57.7.  相似文献   

4.
材料微观组织数值模型模拟是一个密集型计算问题,其模拟时间太长且模拟规模太小.特别是在反映现实模拟的三维多场耦合材料枝晶成型过程中,由于模拟规模太小和计算时间太长,从而导致不能清楚地、及时地反映出枝晶的生长过程.为解决这两个问题,提出使用MPI对等模式对耦合流场的相场法进行三维晶枝生长模型模拟计算,并沿x轴等值面切割整个模型,把分割后的小模型分到不同MPI节点中实现并行运算.结果表明:在相同模拟规模下,10个MPI并行计算节点的加速比可达串行的19.9倍;同时其模拟规模也从串行的211×211×211个网格数增加到388×388×388个网格数.证明使用MPI并行计算对PF-LBM进行模拟解决了单CPU上模拟规模太小和计算时间太长的问题.  相似文献   

5.
采用大规模并行计算进行钛合金中片层组织生长相场模型的数值模拟.针对Allen-Cahn和Cahn-Hilliard等相场模拟方程,在均匀网格上采用时域有限差分显式时间步进和算子分裂的数值算法.基于消息传递接口(MPI)实现三维区域分解和计算与通信重叠的并行算法.在深腾7000上通过测试,显示程序具有良好的可扩展性.在1 0243计算网格上使用4 096核的并行效率达到94.2%,每个时间步耗时约0.2s.  相似文献   

6.
用传统的串行算法进行矩阵相乘运算会受到矩阵规模、单机的CPU主频、内存大小和存储器空间等方面的限制.而使用并行算法是解决上述限制的最有效途径.为此,在集群计算环境下,使用SPMD计算模型和基于MPI消息传递技术设计实现了矩阵相乘的并行算法.实验表明,此并行算法在一定矩阵规模下具有较好的加速比和并行效率.  相似文献   

7.
利用基于图形处理器(GPU)的计算统一设备架构(CUDA) Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不变的情况下,程序取得了4~10倍的加速比,并且加速性能高低与计算规模大小成正比.  相似文献   

8.
针对MPI、OPENMP并行程序各自存在的缺陷,将MPI与OPENMP结合起来,实现了MPI/OPENMP混合并行编程;通过实验对MPI、OPENMP并行程序及MPI/OPENMP混合并行编程进行了分析.实验结果表明:MPI/OPENMP混合并行编程可以大大减少通信量,其效率和加速比均优于纯MPI并行程序,克服了MPI并行程序中因粒子分布不均匀使负载不均衡而导致的程序性能下降的问题,使得可以利用集群中的更多结点来进行计算,缓解了MPI并行程序的通信延迟问题;同时,MPI/OPENMP混合并行编程克服了OPENMP并行程序依赖于单台计算机处理能力和存储空间的问题,大幅度提高了模拟规模.  相似文献   

9.
建立了耦合相场和溶质场的KKSO模型,采用OpenCL并行计算模拟了Fe-C合金共析生长过程,研究了不同形状和不同位置的挡板对层片状珠光体协同生长的影响.结果表明:GPU计算效率相对于串行CPU,最高可达88倍的加速比,并且随着模拟规模的增大,GPU的加速性能越高;挡板的存在直接影响珠光体的形貌演化,其使挡板下方的珠光...  相似文献   

10.
给出了一个将串行程序进行并行划分的算法,并对算法的有效性进行了理论分析和实验验证,结果表明,该算法能有效地并行划分串行程序,提高串行程序的执行效率.  相似文献   

11.
将自适应压力迭代法修正的Sola算法与相场模型相结合,建立过冷熔体在强迫流动状态下枝晶生长的Sola-相场模型.针对传统方法求解多场耦合相场模型时存在的计算量大,计算时间长,计算效率低等问题,提出基于CUDA+GPU软硬件体系结构的高性能计算方法.以高纯丁二腈(SCN)过冷熔体为例,在CPU+GPU异构平台上实现了存在流动时凝固微观组织演化过程的并行求解,并对基于CPU+GPU平台与CPU平台的计算结果及计算效率进行比较.结果表明,当计算规模达到百万量级时,与CPU平台上的串行算法相比,在CPU+GPU异构平台上达到了24.39倍的加速比,大大提高计算效率,并得到与串行计算相一致的结果.  相似文献   

12.
基于KKSO三维多元合金共晶多相场模型,研究了OpenCL+GPU软硬件体系结构的高性能计算方法,以CBr_4-C_2Cl_6为例,分别在AMD和NVIDIA 2种异构平台上通过多进程和多线程的并发执行实现了强迫对流下三维共晶组织的演化过程.结果表明:当计算规模相同时,分别在不同的平台上取得了一定的加速比.对并行算法在一定程度上进行优化,与CPU平台上的串行算法相比优化后的并行算法在异构平台上分别达到了20.2倍和23.6倍的加速比,大大提高了计算效率.同时,以其强大的浮点计算能力获取较为准确的模拟结果,达到计算效率和可移植性的双重需求,解决了传统求解相场模型存在的计算量大、效率低、限于定性研究等问题.  相似文献   

13.
针对大规模三维颗粒两相流全尺度模拟并行计算问题,该文采用MPI+OpenMP混合编程模式,其中机群节点采用MPI并行计算,节点内部采用OpenMP进行细粒化的并行计算,并根据格子Boltzmann方法(LBM)颗粒两相流的特点进行OpenMP程序并行优化设计,提出了一种适用于大量颗粒的三维颗粒两相流LBM并行计算模型。以颗粒沉积问题为例,在集群计算机平台对并行算法的加速性能进行测试。计算结果表明:该算法具有良好的加速比及扩展性,并且其计算量具有颗粒数量不敏感的优点,适用于大规模多颗粒两相流问题的研究。  相似文献   

14.
通过分析影响算法的并行效率的主要因素,根据分而治之策略中的分块思想提出了一种求解三对角方程组的并行追赶算法。然后在机群系统中,MPI环境下实现了该并行算法,对并行算法的加速比和效率与原串行算法进行了比较,结果表明此算法有较高的计算效率。  相似文献   

15.
通过分析影响算法的并行效率的主要因素,根据分而治之策略中的分块思想提出了一种求解三对角方程组的并行追赶算法。然后在机群系统中,MPI环境下实现了该并行算法,对并行算法的加速比和效率与原串行算法进行了比较,结果表明此算法有较高的计算效率。  相似文献   

16.
热表面张力驱动的对流是微重力下浮区法晶体生长中熔体最重要的物质与热输运方式。采用单松弛双分布函数格子Boltzmann模型,自主开发了相应的格子Boltzmann方法的串行和MPI并行程序包,并应用该程序包对开口方腔内流体的二维热表面张力对流进行了数值模拟研究。其中串行程序合并碰撞迁移过程和引入临时数组以连续读入分布函数,相比分开碰撞迁移过程,计算性能提高了二倍;在此基础上,采用单向计算区域分区和非阻塞通信模式,实现了MPI版格子Boltzmann并行程序包开发。对比基于传统有限体积法CFD程序计算结果表明,串行和MPI并行版格子Boltzmann程序包计算结果精确可靠;并行程序具有较好的性能。  相似文献   

17.
三维数值流形方法(three dimensional numerical manifold method,3D-NMM)是岩土工程数值模拟中强大的数值方法之一。但一直存在接触判断困难、计算处理数据量大,效率低等问题。将并行计算技术应用于三维数值流形方法覆盖系统生成可以有效提升其覆盖系统的生成效率。详细研究了并行编程模式下三维数值流形法覆盖系统的生成算法。基于MPI分布式内存编程原理,将分区覆盖生成作为三维数值流形法并行覆盖生成基本思路。先采用规则粗六面体网格覆盖问题域,并利用Metis划分网格形成负载基本均衡的子区域,在原有串行算法的基础上设计了子区域覆盖系统的生成算法。并基于分布式内存存储模式下不同区域间数据传递需求,对本并行算法建立了界面信息传递算法,用以并行计算过程不同区域间中数据交流。最后,使用C++开发了基于布尔运算的三维数值流形单元及覆盖系统并行生成算法。算例表明此并行覆盖系统生成算法可有效提高三维数值流形法覆盖系统的生成效率及其应用规模  相似文献   

18.
大气环流模式是中科院地球系统模式中最为复杂的模式,在当前主流的众核异构平台上开展大气环流模式的众核并行化是高性能计算的热点研究问题。针对AGCM4.0热点程序动力框架的适应过程Tend_lin,利用神威OpenACC编程模型在"神威·太湖之光"高性能计算平台上实现并行化,并从循环分布、循环分块、数据传输的表达、函数调用的从核化等方面提升应用性能。详细讨论了不同场景下的数据传输表达,对比测试了不同分块尺寸对程序性能的影响。相比主核串行,两种测试规模下,Tend_lin应用的单核组多线程并行均获得6倍以上的加速;且随着应用分辨率的扩大,众核处理器的性能得到更好发挥,在C规模下,多进程获得了69倍的全应用加速。  相似文献   

19.
有限元方法FEM(Finite Element Method)是计算电磁学中非常重要的一种方法,而当问题规模较大时或计算量较大时,传统串行单机FEM难以胜任.本文在基于消息传递(MPI)的分布式并行系统上,采用有限元方法对电磁场问题进行并行求解.有限元方法形成的系数矩阵可以表示成块三对角矩阵,适合采用并行多分裂方法高效求解.并行计算技术的运用减少了计算时间并扩展了可处理问题的规模.结果表明,将并行技术应用于电磁有限元计算是有效并且可行的.  相似文献   

20.
ABEEMσπ/MM模型程序中,计算静电相互作用能非常耗费机时.针对原串行程序中多个循环相互嵌套的求解部分,进行循环带状划分并行化处理.经测试表明,利用新编制的并行程序进行动力学模拟,并行加速比以线性趋势提高、求解静电相互作用能速度大幅度加快、尤其是针对原子数较多的分子体系效果比较理想.利用36个CPU,对于位点数为10 000左右的蛋白质体系,进行1ns的动力学模拟,至少可以节省1年左右的时间,明显地提高了研究蛋白质体系性质的效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号