期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

朱昶胜贾金芳冯力肖荣振王永贤《兰州理工大学学报》2015,41(3)

将自适应压力迭代法修正的Sola算法与相场模型相结合,建立过冷熔体在强迫流动状态下枝晶生长的Sola-相场模型.针对传统方法求解多场耦合相场模型时存在的计算量大,计算时间长,计算效率低等问题,提出基于CUDA+GPU软硬件体系结构的高性能计算方法.以高纯丁二腈(SCN)过冷熔体为例,在CPU+GPU异构平台上实现了存在流动时凝固微观组织演化过程的并行求解,并对基于CPU+GPU平台与CPU平台的计算结果及计算效率进行比较.结果表明,当计算规模达到百万量级时,与CPU平台上的串行算法相比,在CPU+GPU异构平台上达到了24.39倍的加速比,大大提高计算效率,并得到与串行计算相一致的结果. 相似文献

2.

基于OpenCL的图像灰度化并行算法研究

肖汉郭宝云李彩林肖诗洋《江西师范大学学报(自然科学版)》2020,44(5):462-471

随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 相似文献

3.

CPU+GPU异构并行的矩阵转置算法研究

肖汉李彩林李琦周清雷《东北师大学报(自然科学版)》2019,51(4)

针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献

4.

基于MPI二元合金三维枝晶生长相场法的并行研究

《兰州理工大学学报》2016,(6)

在对Ni-Cu二元合金进行三维模拟时采用了目前最有效的微观组织数值模拟方法—相场法.但是随着空间维数的增多,计算规模小、计算时间长、计算效率低成为突出的问题.为了解决以上问题,探讨基于MPI并行算法求解Ni-Cu二元合金自由生长的三维相场模型,分别采用MPI中点对点通信和组通信对串行程序进行并行设计,并对2种通信模式的加速比进行比较.同时采用不同的划分方法对并行程序中计算域进行划分并比较并行效率.结果表明:MPI并行方法可以使计算规模扩大到1 000个×1 000个×500个网格;在规模相同的情况下,组通信的加速比相对串行程序最高可以达到15.45倍,要高于点对点通信的10.06倍最高加速比;无论计算规模大小,点对点通信均适用,组通信由于数据缓存区的限制,不适用于计算规模较大的情况;面向行划分方式的计算效率和安全性均高于面向块划分方式. 相似文献

5.

基于异构平台的图像中值滤波的OpenCL加速算法

肖诗洋王镭杜莹肖汉《河北大学学报(自然科学版)》2024,(1):92-103

图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 相似文献

6.

用于光线跟踪的高并行度表面积启发式(SAH)KD树构建

李建锋  谭耀华廖胜辉《湖南大学学报(自然科学版)》2018,45(10):148-154

提出一种用于光线跟踪的SAH-KD树构建方法,解决当前KD树并行算法并行度不高且效率低的问题.算法首先对所有图元包围盒在三个维度按坐标轴左值排序,得到三维上有序的包围盒索引.然后使用层次遍历构建KD树,根据每个节点包围盒选择要划分的维度,并在当前层生成所有节点在该维度下的候选划分点序列.最后计算每个节点的空间树,在GPU中计算每个候选点的SAH值,选择每个节点的最小SAH值点进行划分.实验中采用4个常用场景进行测试算法性能,并同时比较了当前高效串行与并行算法,结果证明本文提出的算法在生成同等质量KD树的情况下达到对比串行方法4~6倍以及对比并行方法的1.3~1.5倍的计算速度,并且能在线程数成倍增加时达到相近倍数的加速比. 相似文献

7.

面向CPU+GPU异构平台的模板匹配目标识别并行算法

马永军袁赢李灏《天津科技大学学报》2014,(4):48-52

针对大数据量导致模板匹配目标识别算法计算时间长,难以满足快速检测的实际需求问题,在采用最新NVIDIA Tesla GPU构建的CPU+GPU异构平台上,设计了一种模板匹配目标识别并行算法.通过对模板图像数据常量化、输入图像数据极致流多处理器片上化和简化定位参数计算3方面优化了并行算法,并对算法进行性能测试.实验表明,该算法在保证识别效果的同时实时性明显提高. 相似文献

8.

基于多核心工作站机群的并行介数算法

毛国勇张宁《上海理工大学学报》2012,34(6):527-530

针对计算大规模复杂网络时介数的空间和时间复杂度问题,根据网络数据的存储特点,设计了减少内存占用并能提高查找速度的数据结构.根据介数计算的特点,用Python语言设计了粗粒度并行算法,在多核心工作站机群实现了并行算法.实验结果表明:并行算法不仅能够适用于上亿条边规模的网络,而且能够获得线性加速比,使120个计算核心的加速比达到了71左右,为分析大规模复杂网络数据的特性提供了易操作的方案. 相似文献

9.

基于并行迭代动态规划的聚合物驱最优控制求解 总被引：1，自引：0，他引：1

郭兰磊李树荣张玉斌雷阳《中国石油大学学报(自然科学版)》2009,33(3)

针对迭代动态规划计算量大,耗费时间长的特点,基于实验室搭建的PC机群,以消息传递库MPICH为编程工具,搭建一个并行计算平台,给出一种主从式的并行迭代动态规划算法,利用该算法对聚合物驱最优控制问题进行求解,并与串行计算结果进行对比.结果表明:在大规模的优化问题中并行迭代动态规划算法与串行算法结果一致,但表现出较高的并行效率和加速比;并行算法求解的效率受到主节点分配任务时是否均衡的影响. 相似文献

10.

钛合金片层组织生长相场的大规模并行模拟

张鉴《华中科技大学学报(自然科学版)》2011,39(Z1):95-98

采用大规模并行计算进行钛合金中片层组织生长相场模型的数值模拟.针对Allen-Cahn和Cahn-Hilliard等相场模拟方程,在均匀网格上采用时域有限差分显式时间步进和算子分裂的数值算法.基于消息传递接口(MPI)实现三维区域分解和计算与通信重叠的并行算法.在深腾7000上通过测试,显示程序具有良好的可扩展性.在1 0243计算网格上使用4 096核的并行效率达到94.2%,每个时间步耗时约0.2s. 相似文献

11.

三对角Toeplitz方程组的一种快速并行算法

单润红高峰宋君强李晓梅《大连理工大学学报》2003,43(Z1):135-137

利用矩阵结构的特殊性,提出了一种新的求解三对角Toeplitz方程组的快速分布式并行算法,拓展了骆志刚的求解空间.通过理论分析和在分布式存储多处理机上的数值实验,证明新算法的加速比接近于线性加速比.数值实验同时表明新算法具有很高的并行效率. 相似文献

12.

初边值问题的块三对角可扩展并行算法 总被引：1，自引：0，他引：1

张武张衡《上海大学学报(自然科学版)》2007,13(5):497-503

该文对二维抛物型方程带Dirichlet边界条件初边值问题的离散系统使用块三对角可扩展并行算法求解.提出反映差分格式内在并行性的概念——差分格式的并行度,利用这个概念说明差分格式自身内在并行性对并行算法性能的影响.使用该方法在上海大学超级计算机“自强3000”上进行了数值实验,实验结果与理论分析一致.在保证精度的前提下,得到线性加速比,并行效率达到90%以上. 相似文献

13.

基于计算统一设备架物Fortran的直接模拟蒙特卡洛方法并行优化

严立戴欣怡陈佳洛王平阳欧阳华《上海交通大学学报》2013,47(8):1198-1204

利用基于图形处理器（GPU）的计算统一设备架构(CUDA) Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不变的情况下,程序取得了4～10倍的加速比,并且加速性能高低与计算规模大小成正比. 相似文献

14.

基于OpenCL并行的挡板对珠光体生长的相场法模拟

朱昶胜李玉杰马芳兰冯力雷鹏《兰州理工大学学报》2021,47(2):13

建立了耦合相场和溶质场的KKSO模型,采用OpenCL并行计算模拟了Fe-C合金共析生长过程,研究了不同形状和不同位置的挡板对层片状珠光体协同生长的影响.结果表明:GPU计算效率相对于串行CPU,最高可达88倍的加速比,并且随着模拟规模的增大,GPU的加速性能越高;挡板的存在直接影响珠光体的形貌演化,其使挡板下方的珠光体生长被限制,穿过挡板间隙的珠光体形貌发生改变;当挡板位于渗碳体和铁素体界面正上方时,挡板两侧渗碳体相合并为不规则形状,渗碳体相前沿碳原子不能满足其生长需求,停止生长,相邻铁素体合为一个相.因此挡板的存在可以控制珠光体的生长形貌. 相似文献

15.

开放式计算语言加速的分段前缀和并行算法

肖汉李彩林郭宝云周清雷《科学技术与工程》2019,19(31):215-221

针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言（Open Computing Language,OpenCL）的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并行的分段式前缀和算法;然后通过OpenCL编程将前缀和并行算法映射到CPU+GPU系统平台上,实现了层次化并行前缀和处理;最后,根据计算单元（Compute Unit,CU）的资源条件,增加CU中本地存储器的分配,通过改进工作节点的访问模式来降低bank冲突,提高访存速度。实验结果表明,与基于AMD Opteron 2439 SE CPU的串行算法、基于OpenMP（Open Multi-Processing）并行算法和基于统一计算设备架构并行算法性能相比,前缀和并行算法在OpenCL架构下NVIDIA Tesla C2075计算平台上分别获得了33.51倍、6.26倍和2.41倍的加速比。验证了提出的并行优化方法的有效性和性能可移植性。相似文献

16.

机群系统中矩阵的并行QR分解算法

杨爱民陈一鸣李宝凤李霞佟腊梅《河北理工大学学报(自然科学版)》2006,28(1)

随着高速网络技术的快速发展,机群系统已经成为并行计算的主要平台,由于它的高通信延迟,某些在并行机上实现的细粒度并行算法已不适合在该环境下运行,为此有必要研究它们在机群系统中的并行实现.基于这一点,对矩阵的QR分解提出了一种新的任务划分策略,并由此得到了它的一种粗粒度并行算法.实验结果表明,设计的并行算法在机群系统中具有较高的加速比. 相似文献

17.

冷冻电镜三维重构在CPU-GPU系统中的并行性

李兴建李临川谭光明张佩珩《华中科技大学学报(自然科学版)》2011,39(Z1):115-119

为了有效地发掘和利用异构系统在应用和体系结构上的并行性,以冷冻电镜三维重构为例展示如何利用应用程序潜在的并行性.通过分析重构计算所有的并行性,实现了将动态自适应的划分算法用于任务在异构系统上高效的分发.在曙光星云系统的部分节点系统(32节点)上评估并行化的程序性能.实验证明:多层次的并行化是CPU与GPU异构系统上开发并行性的有效模式;CPU-GPU混合程序在给定问题规模上相对单纯CPU程序获得2.4倍加速比. 相似文献

18.

基于分群式粒子群算法的压裂水平井试井曲线自动拟合

王培玺张静《中国石油大学学报(自然科学版)》2012,36(2):136-140,151

为提高压裂水平井试井多参数自动拟合的计算精度、速度和稳定性,将传统方法、智能算法和并行算法相结合,提出并行分群式粒子群优化算法,并将高斯-牛顿法与粒子群算法相结合,同时采用OpenMP并行算法求解。结果表明:在粒子群优化算法中,通过粒子分群使粒子搜索方向趋近于线性,避免了粒子群算法易陷入局部最优的问题,加快了搜索速度;与高斯-牛顿法相结合保证了计算的稳定性;采用OpenMP并行算法求解降低了模型的复杂度,提高了计算效率;分群式粒子群优化算法比其他优化算法计算速度更快,计算精度更高,并可在一定程度上为多裂缝水平井试井解释划分流动阶段。相似文献

19.

基于GPU加速的全源对最短路径并行算法

肖汉肖诗洋李焕勤周清雷《云南大学学报(自然科学版)》2023,(5):1022-1032

针对最短路径算法处理大规模数据集低效的问题，提出了基于图形处理器（Graphics Processing Unit,GPU）加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据，然后减少了非规则行造成的工作项分支，最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明，与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理（Open Multi-Processing, OpenMP）并行算法和基于统一计算设备架构（Compute Unified Device Architecture, CUDA）并行算法相比，最短路径并行算法在开放式计算语言（Open Computing Language, OpenCL）架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比，验证了提出的并行优化方法的有效性和性能可移植性. 相似文献

20.

基于CUDA的晶格Boltzmann并行算法的综合优化设计

张超英黎槟华覃章荣《广西师范大学学报(自然科学版)》2012,30(3)

本文在CUDA框架下设计与实现基于GPU的晶格Boltzmann方法(LBM)的并行算法.为进一步提高计算效率,本文分别研究几种典型的优化策略对计算效率的影响,并给出了一种集多优化策略为一体的综合优化解决方案.以圆管内Poiseuille流为算例的实验表明,采用新综合优化方案设计的LBM并行算法能够获得更高的计算效率. 相似文献