期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《兰州理工大学学报》2017,(4)

针对二元合金三维相场模型模拟研究中存在的计算区域小、计算效率低,难以满足二元合金大规模模拟的需求,提出基于MPI+OpenMP混合编程模式的并行方法.在相同计算规模下对MPI和OpenMP并行技术的优缺点进行分析.在计算机集群环境下对MPI+OpenMP混合编程模式和纯MPI并行方法的并行效率进行对比和分析.结果证明:基于MPI+OpenMP混合编程模式可以有效地扩大二元合金三维相场模型的计算规模;在多核集群环境下,相对于纯MPI并行方法,MPI+OpenMP混合编程可以更加有效地利用多核集群的多层次结构,取得更高的加速比和计算效率. 相似文献

2.

基于多核集群的MPI+OpenMP混合并行编程模型研究

《甘肃科技》2018,(19)

现代计算机处理器个数的增加将高性能系统的计算速度推向更高的层次。基于SMP节点的集群系统占主导地位,这种跨节点的分布式内存系统与节点内共享内存系统的结合向开发人员提出了新的挑战。为了充分利用硬件的计算能力,计算机科学家已经提出了许多针对各种系统架构的并行编程模式。作为目前比较流行的层次化并行模式,MPI适合用于集群节点间的并行而OpenMP被用在节点内部进一步细粒化的并行。本文对这两种编程模式以及MPI+OpenMP混合编程模式进行研究,实现了将矩阵的乘法运算分别用纯MPI模式和MPI+OpenMP混合模式并行化。在基于Intel Xeon5650集群系统上,用不同规模大小的矩阵分别在单节点内和多节点的情况下测试了两种并行模式的性能。相似文献

3.

CPU+GPU异构并行的矩阵转置算法研究

肖汉李彩林李琦周清雷《东北师大学报(自然科学版)》2019,51(4)

针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献

4.

GPU加速的2维矩量法研究

柴豆豆吴先良孙冬马巍巍《安徽大学学报(自然科学版)》2012,(4):63-67

矩量法(MOM)是求解电磁场散射和辐射问题的一种常用数值方法,当未知量数目比较大时,其计算需要大量的时间开销.引入计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现并行MOM,并且与传统的中央处理器(CPU)串行计算比较,验证GPU计算结果的准确性.在未知量数目不同时,分析MOM中的阻抗矩阵填充和共轭梯度(CG)迭代法的加速情况.当未知量数目较大时,计算速度与CPU相比可提升数十倍. 相似文献

5.

多细胞基因表达式编程函数优化的并行算法研究

元建覃晓彭昱忠石亚冰《广西师范学院学报(自然科学版)》2014,(1):50-55

并行算法是当前研究解决算法效率问题的成熟技术之一。为提高GEP算法解决复杂函数优化问题的效率,将并行算法引入多细胞基因表达式编程函数优化问题,解决传统计算形式不能充分发挥多核处理器性能的问题。通过分析多细胞基因表达式编程并行算法的机理和MPI和Open MP混合并行模型,设计与实现多细胞基因表达式编程函数优化的并行算法(Parallel Multicellular Gene Expression Programming algorithm for Function Optimization)PGMFO。实验结果表明针对复杂的函数优化问题,在不影响精度和收敛性的情况下,PGMFO算法比原有的算法效率高出10%~20%。相似文献

6.

并行计算在词袋模型算法中的应用

下载免费PDF全文

徐通马燕王玉善赵慧君《上海师范大学学报(自然科学版)》2017,46(2):218-223

传统词袋模型已广泛地应用于图像处理领域,并取得较好效果.但在传统词袋模型中,仅考虑了串行计算,使得整个算法流程耗时较长.考虑现有的多核CPU资源,结合共享存储并行编程(OpenMP)并行框架,对词袋模型进行并行优化,并对其性能进行讨论.主要考虑对特征提取、特征聚类和图像直方图生成三个部分进行并行优化.通过对Caltech 100数据库进行实验,结果表明,该方法可以取得接近于CPU核数的加速比,因此减少了词袋模型的构造和图像直方图生成时间,相对于传统词袋方法提高了算法的效率. 相似文献

7.

基于小波变换的旋转对称目标电磁散射特性研究

朱治虹陈明生吴先良王时文《合肥工业大学学报(自然科学版)》2014,(10):1222-1225

文章针对旋转对称矩量法中感应电流的矢量分解特性,引入Daubechies离散小波变换,对旋转对称矩量法生成的稠密阻抗矩阵进行稀疏化预处理,并通过实例编程计算比较,在相同剖分段下,验证了小波旋转对称矩量法的可靠性,改善了计算效率,有效降低了内存占用。相似文献

8.

基于MPI+OpenMP混合编程模式的大规模颗粒两相流LBM并行模拟

何强李永健黄伟峰李德才胡洋王玉明《清华大学学报(自然科学版)》2019,(10)

针对大规模三维颗粒两相流全尺度模拟并行计算问题,该文采用MPI+OpenMP混合编程模式,其中机群节点采用MPI并行计算,节点内部采用OpenMP进行细粒化的并行计算,并根据格子Boltzmann方法(LBM)颗粒两相流的特点进行OpenMP程序并行优化设计,提出了一种适用于大量颗粒的三维颗粒两相流LBM并行计算模型。以颗粒沉积问题为例,在集群计算机平台对并行算法的加速性能进行测试。计算结果表明:该算法具有良好的加速比及扩展性,并且其计算量具有颗粒数量不敏感的优点,适用于大规模多颗粒两相流问题的研究。相似文献

9.

神威平台上AceMesh编程模型的构图优化

叶雨曦傅游梁建国孟现粉刘颖花嵘《山东科技大学学报(自然科学版)》2021,40(4):76-85

面向高性能计算领域的多核、众核处理器飞速发展,为了降低并行编程的难度,提高并行计算效率,数据驱动的并行编程模型成为高性能计算领域的研究热点.AceMesh是数据流驱动的、支持多核和众核异构平台的任务并行编程模型,能自动发掘结构化网格应用中存在的数据驱动的任务图并行性.但如果任务粒度划分较细,其构图过程会造成很大开销.本... 相似文献

10.

导体目标雷达散射截面的ACA-SVD快速算法研究

《应用科技》2017,(6)

采用传统矩量法(MOM)求解电大尺寸物体时计算机资源消耗大,运算速度慢。为降低求解该类问题对于计算机硬件的需求,提高运行速度,应用自适应交叉近似(ACA)算法对阻抗矩阵的远场组元素进行低秩压缩,然后通过奇异值分解对得到的缩减矩阵进一步压缩以实现减少矩阵存储并加速矩阵向量乘运算。对于近场组元素,采用精确矩量法结合近场预处理技术,实现对雷达散射截面的快速计算。该算法在计算理想导体的双站RCS时结果与Mie级数结果吻合良好;算例证明:在计算精度相同的前提下,相比于传统矩量法,ACA和ACA-SVD算法的引入,分别可以减少59.25%和78.10%的存储空间,从而可以加速矩阵向量乘的计算。相似文献

11.

基于CUDA的大规模稀疏矩阵的PCG算法优化

郑经纬安雪晖黄绵松《清华大学学报(自然科学版)》2014,(8):1006-1012

为了实现大规模稀疏矩阵的高效求解,该文利用GPU(graphics processing unit)高带宽、低成本及强大的并行处理能力等优势,基于CUDA(compute unified device architecture)技术对采用CSR(compress spare row)格式存储的大规模稀疏矩阵进行了预处理共轭梯度(PCG)算法的求解优化。采用了存储器优化和数据流优化这2大并行优化策略,对稀疏矩阵与向量乘积和向量间内积与归约的GPU优化步骤进行了详细介绍。通过对实际的水工隧洞模型里的稀疏矩阵求解,得到在GTX580显卡上的计算效率是Intel i7CPU的13倍。该文提出的基于CUDA的PCG算法具备快速、高效求解大规模稀疏矩阵的能力。相似文献

12.

基于纯无网格法三维对流扩散方程的并行计算

《扬州大学学报(自然科学版)》2019,(3)

针对三维对流扩散方程的数值求解,应用修正光滑粒子动力学(corrected smoothed particle hydrodynamics, CSPH-3D)方法,推导出求解三维对流扩散方程的CSPH-3D离散格式,得到涉及3×3矩阵的核函数修正公式.为提高计算效率,采用基于MPI(multi-point interface)粒子搜索的并行计算技术,对有解析解的三维对流扩散方程进行数值求解,分析了数值模拟误差以及粒子数和CPU数对计算效率的影响,并对无解析解的方程进行了数值预测,分析了收敛性.结果表明,本文的CSPH-3D并行算法模拟三维对流扩散方程是高效、可靠的. 相似文献

13.

一种面向CellBE处理器的Cell-MPI编程环境

《华中科技大学学报(自然科学版)》2010,(Z1)

设计实现了一个面向CellBE异构多核处理器的多节点MPI编程运行环境Cell-MPI,实现了包括基本的点到点通信和广播等常用通信操作集合的MPI通信库原型,目的是在有效利用SPE计算能力提高程序运行效率的同时,保持与传统MPI一致的编程模式,减轻应用移植给使用者带来的负担.使用通信延迟、带宽测试程序及实际应用程序对其进行了测试,测试结果表明设计实现的MPI在保持高效通信性能的同时,也有效地利用了SPE,发挥了CellBE处理器强大的计算性能. 相似文献

14.

多核CPU环境下的并行遗传算法的研究 总被引：4，自引：2，他引：2

唐天兵谢祥宏申文杰韦凌云严毅《广西大学学报(自然科学版)》2009,34(4)

多核CPU已经成为当前CPU市场上的主流产品,设计适应多核CPU环境的算法与软件势在必行.遗传算法是一种具有很强通用性的全局搜索方法,也是一种计算量大、极耗计算资源的算法,其传统的串行计算形式并不能充分利用多核的计算资源,将其设计为适应多核CPU环境的并行计算形式,具有重要的现实意义.将遗传算法的基本操作设计成并行执行形式,并利用OpenMP将其线程化,从而对不同规模的TSP问题的求解结果来看,加速比与计算效率随着规模的增大而提高. 相似文献

15.

两种积分方程法求解均匀介质体散射问题的比较

邓楚强盛新庆《北京理工大学学报》2008,28(10):898-901

针对均匀介质体散射问题,对比研究了基于2种积分方程的5种矩量法实施方案的求解精度和效率.分析了单积分方程和Poggio-Miller-Chang-Harrington-Wu (PMCHW)方程各种矩量法实施方案的特点和效率,通过数值计算进行验证,并对相应的数值现象作出解释.结果表明:基于单积分方程的矩量法与PMCHW方程矩量法一样精确,迭代收敛速度更快;基于单积分方程的磁场积分方程,矩量法生成矩阵和迭代求解的效率最高,但存在谐振点. 相似文献

16.

求解矩阵特征值的GPU实现 总被引：1，自引：0，他引：1

夏健明魏德敏《中山大学学报(自然科学版)》2008,47(Z2)

提出了求解矩阵特征值的GPU(图形处理器)实现方法,分别用基于GPU的幂法和QR法求解矩阵的最大特征值和所有特征值。基于GPU的计算与基于CPU的计算相比较,证实其计算精度较好,运算时间比基于CPU的运算时间快2.7~7.6倍。相似文献

17.

一种针对汽车三维虚拟仿真系统的多线程渲染优化方法

李红波罗璇吴渝刘昱晟《重庆邮电大学学报(自然科学版)》2014,26(1):137-142

针对汽车三维虚拟现实仿真系统在多核平台下的渲染效率和CPU利用率较低的这一问题,提出了一种基于OpenMP的多线程渲染优化方法。该方法采取了设置动态线程数量、策略调度以及渲染帧并行绘制等策略,对汽车三维虚拟现实仿真系统渲染过程中的初始化阶段、逻辑阶段以及渲染阶段进行并行优化。在多核平台上进行了实验,结果表明,该方法能有效地提高系统的渲染效率和CPU 利用率,改善CPU的负载均衡。相似文献

18.

基于OpenMP和Pardiso的柔性多体系统动力学并行计算

曹大志强洪夫任革学《清华大学学报(自然科学版)》2012,(11):1643-1649

为加快大型、复杂柔性多体系统的动力学仿真的速度,对多体系统动力学的并行算法进行研究。首先分析了微分代数方程(differential algebraic equations,DAEs)在数值计算求解过程中主要的计算量。据此,提出采用OpenMP并行计算系统的刚度矩阵、右端项和采用并行的稀疏线性方程组求解器Pardiso对线性方程组进行求解的并行策略。将这两种并行策略应用到自主开发的柔性多体系统动力学软件THUSolver中,实现了对多体系统动力学的并行计算。通过两个工程算例的仿真得到并行的加速比和计算效率,结果表明:采用的两种并行策略都有很高的计算效率,能大幅提高多体系统动力学仿真的速度。相似文献

19.

多分辨预处理技术加速PO-MOM混合方法的研究

杨端义崔元顺《淮阴师范学院学报(自然科学版)》2012,(1):26-30

结合复杂物体散射特性的电磁计算问题,研究了物理光学(PO)与矩量法(MOM)相结合的混合技术,寻求PO-MOM方法减少计算时间和存储空间、提高计算精度的途径;针对矩量法在求解过程中的迭代问题,引入多分辨预处理技术,并给出算例.结果表明,在满足计算精度不变的前提下,使用PO-MOM混合方法提高了计算效率. 相似文献

20.

基于多核的粗粒度2.5维电磁场正演并行算法

白洪涛李昂欧阳丹彤邢书豪刘雪飞《吉林大学学报(理学版)》2014,52(3):509-514

基于CPU多核处理器实现了粗粒度2.5维电磁场并行正演算法, 使用OpenMP对串行算法的频率域进行粗粒度分解, 主线程进行任务分配, 从线程在CPU多核上并行计算各频率域电磁场值, 并分析了OpenMP并行效率与模型及核心数目的关系. 多组不同模型测试结果表明, 本文并行方法与串行方法得到的数值结果相同, 并获得了接近CPU逻辑核心数目的性能提升. 相似文献