期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于多图形处理单元加速的各向异性弹性波正演模拟 总被引：1，自引：0，他引：1

付小波马中高余嘉顺原健龙韩超《科学技术与工程》2018,(11)

比较分析了在不同网格大小介质模型情况下,分别采用串行计算、CPU 16个线程并行计算和4块图形处理单元(GPU)并行计算进行各向异性弹性波动方程正演模拟的执行时间差异。发现在网格点为256~3的大模型上,用4块GPU的并行模拟计算相对16线程并行计算与串行计算的加速分别为30倍与156倍。表明多GPU并行算法可以显著缩短数值模拟时间,而且模型网格越大,加速效果越显著。因此,在单机环境下进行大尺度模型的各向异性弹性波正演模拟,采用多GPU并行计算方式是一个合适的加速选择。相似文献

2.

Lattice-Boltzmann方腔模型的CUDA加速实现

郑彦奎《科学技术与工程》2010,10(7)

对Lattice Boltzmann方法(LBM)在CUDA下的建模和算法进行了研究,使得该方法在GPU下的计算速度得到提升,大大缩短了计算过程的时间消耗。利用非平衡外推边界条件处理,以LBM方法模拟了D2Q9模型的方腔顶盖驱动流动,采用全局内存和纹理内存存储数据,将模型中9个分布函数存储为二维网格,每个网格分配一个线程,每个线程块包括256个线程,多条线程并行计算。在普通个人计算机上,采用NVIDIA GeForce 9600 GT显卡和CUDA,实现了LBM模拟方腔流动,将计算速度提高到CPU的50倍。相似文献

3.

基于多核异构的代数多重网格的并行算法实现

刘荣陈华李庆贺张艺丹《科学技术与工程》2014,14(14):120-124

近年来,受GPU其高浮点峰值性能的提高和应用领域中大规模科学计算问题的驱动,高性能领域中利用代数多重网格(AMG)求解稀疏线性方程组成为研究热点。针对经典的AMG算法,探究建立阶段(网格粗化)和求解阶段的并行计算结构,提出基于多核异构的AMG并行计算模式。数值实验表明,并行计算模式计算效率相对于串行提高了3~4倍,加速效果明显。相似文献

4.

基于GPU的近场动力学模拟的并行化方法

《上海交通大学学报》2016,(9)

针对近场动力学(PD)模型计算量庞大、计算效率低的问题,研究了基于GPU的PD建模过程的并行化方法.通过将前处理及求解过程中各物质点的计算映射到GPU的单个线程,实现模型的多线程高效并行计算.计算程序在Microsoft Visual Studio 2010集合CUDA 4.0工具包的开发环境下执行,采用CUDA C进行编写.对复合材料层压板的2种PD模型(键型PD模型和态型PD模型)的计算表明,采用GPU并行运算的模型模拟结果与试验结果吻合良好,并且相比于CPU串行计算,GPU并行计算获得了2.6~10.3倍的加速比,降低了PD模型的计算代价. 相似文献

5.

基于OpenCL并行的挡板对珠光体生长的相场法模拟

朱昶胜李玉杰马芳兰冯力雷鹏《兰州理工大学学报》2021,47(2):13-20

建立了耦合相场和溶质场的KKSO模型,采用OpenCL并行计算模拟了Fe-C合金共析生长过程,研究了不同形状和不同位置的挡板对层片状珠光体协同生长的影响.结果表明:GPU计算效率相对于串行CPU,最高可达88倍的加速比,并且随着模拟规模的增大,GPU的加速性能越高;挡板的存在直接影响珠光体的形貌演化,其使挡板下方的珠光... 相似文献

6.

基于CUDA架构并行算法的带地形AMT二维反演实现与应用

韩思旭陈小斌陈卫营罗强宋婉婷《科学技术与工程》2021,21(31):13268-13276

并行计算是提高音频大地电磁（audio-frequency magnetotelluric method,AMT）数据反演效率的有效途径。本文在统一计算设备架构(compute unified device architecture,CUDA) 下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+ CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。相似文献

7.

基于MPI并行的PF-LBM三维枝晶生长模型模拟计算

朱昶胜金显邓新冯力《兰州理工大学学报》2018,(2)

材料微观组织数值模型模拟是一个密集型计算问题,其模拟时间太长且模拟规模太小.特别是在反映现实模拟的三维多场耦合材料枝晶成型过程中,由于模拟规模太小和计算时间太长,从而导致不能清楚地、及时地反映出枝晶的生长过程.为解决这两个问题,提出使用MPI对等模式对耦合流场的相场法进行三维晶枝生长模型模拟计算,并沿x轴等值面切割整个模型,把分割后的小模型分到不同MPI节点中实现并行运算.结果表明:在相同模拟规模下,10个MPI并行计算节点的加速比可达串行的19.9倍;同时其模拟规模也从串行的211×211×211个网格数增加到388×388×388个网格数.证明使用MPI并行计算对PF-LBM进行模拟解决了单CPU上模拟规模太小和计算时间太长的问题. 相似文献

8.

城市二维内涝模型的GPU并行方法

向小华陈颖悟吴晓玲李超王志伟康爱卿《河海大学学报(自然科学版)》2020,48(6):528-533

针对二维水动力模型应用于城市内涝模拟时,在大尺度区域或精细分辨率情形下运行耗时过长的问题,通过耦合SWMM模型和LISFLOOD-FP模型构建城市内涝模型,采用GPU的并行计算技术加速城市二维内涝模型。以盐城响水县城区的内涝模拟为例,对并行模型的效率进行分析,结果表明,基于GPU的并行计算技术可以显著提升模型运行效率,在5 m分辨率下能够8 min内模拟12 h的内涝事件,可用于突发内涝事件下的快速响应;并行模型的加速效果在更高的空间分辨率下表现更明显,在2 m分辨率下取得最高10.86倍的加速比;要最大化发挥GPU计算效率,首先需要单步长有较大的计算量,其次是要尽量减少与GPU的数据频繁传输导致的额外开销。相似文献

9.

GPU加速窦房结计算机仿真的实现及优化

张虹郑霄赵丹《西安交通大学学报》2014,(7)

针对窦房结电生理计算机仿真运算量巨大、耗时长的问题,提出了基于高性能图形处理单元(GPU)实现并行计算及优化的方法。首先考虑窦房结细胞中央和边缘的差异,构建了一维非匀质窦房结组织模型;利用算子分裂方法使模型的解算任务具备并行性。根据具体解算过程提出了三种并行化策略,并对其中耗时最短的策略从线程块设置、数据交换频率以及存储模式等方面进行了进一步优化。结果表明:对于500个细胞的仿真,CUDA程序较串行程序的执行时间下降了60%,进一步优化后,CUDA程序的执行时间可下降84%;窦房结组织越大,GPU的加速效果越明显。结果验证了GPU加速解算方法可显著提高窦房结模型的解算速度,降低实际执行时间。相似文献

10.

基于DEM和GPU加速的颗粒运动仿真方法研究

付帅旗黄鹏丁逸飞《合肥工业大学学报(自然科学版)》2019,42(12)

采用离散元素法(discrete element method, DEM)进行颗粒系统运动仿真时,其模拟计算量大、计算效率低下,所采用的传统中央处理器(central processing unit, CPU)并行计算模型难以实现较大规模模拟。文章提出了一种基于图形处理单元(graphics processing unit, GPU)和统一计算设备架构(compute unified device architecture, CUDA)的并行计算方法;以球磨机的介质运动仿真为例,利用DEM方法结合CUDA并行计算模型,充分利用GPU众核多线程的计算优势,同时将颗粒属性信息存入GPU的常量存储器,减少信息读取的时滞,将筒体和衬板视为圆柱面和平面,简化了筒体与颗粒的接触判断,实现每个线程处理1个颗粒的相关计算,大幅提高计算速度;对颗粒堆积、筒体内2种尺寸颗粒运动进行仿真,并与基于CPU并行计算的结果进行对比。研究结果表明:在同等价格的硬件条件下,该文的方法可以实现10倍以上的加速比;对于含有复杂几何模型的仿真,如多尺寸颗粒和带衬板筒体的仿真,加速比会减少,但仍然可以实现数倍的加速。相似文献

11.

基于GPU的模态分析并行算法

朱彬张宜生王梁田晓薇《华中科技大学学报(自然科学版)》2012,40(5):33-36

开发了基于图形处理器（GPU）的Cholesky分解并行算法,应用于模态计算程序中,对计算进行加速.算例测试表明该算法相对串行算法计算性能大幅提升,且加速比随矩阵阶数增加而增加,与串行程序相比加速比可达到19.6,此时GPU浮点运算能力达到298Gflops.GPU程序固有频率计算结果与Abaqus计算结果的误差在2%以内,具有足够的计算精度. 相似文献

12.

基于OpenCL的图像灰度化并行算法研究

肖汉郭宝云李彩林肖诗洋《江西师范大学学报(自然科学版)》2020,44(5):462-471

随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到"CPU+GPU"异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 相似文献

13.

基于流式处理技术的GNSS信号并行跟踪方法

齐航何峰《河南科学》2013,(11):1915-1917

提出一种基于流式处理器的导航卫星信号并行跟踪方法,实验证明新型并行算法相对于传统算法提高解算速度高达几十倍,使得软件接收机多通道跟踪多种卫星导航定位系统的多颗卫星信号成为可能。相似文献

14.

面向CPU+GPU异构计算的SIFT 总被引：1，自引：0，他引：1

肖汉郭运宏周清雷《同济大学学报(自然科学版)》2013,41(11):1732-1737

依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍. 相似文献

15.

A case study of 3 D RTM-TTI algorithm on multicore and many-core platforms

Zhang Xiuxia Tan Guangming Chen Mingyu Yao Erlin 《高技术通讯(英文版)》2017,23(2)

3D reverse time migration in tiled transversly isotropic (3D RTM-TTI) is the most precise mod-el for complex seismic imaging.However, vast computing time of 3D RTM-TTI prevents it from be-ing widely used, which is addressed by providing parallel solutions for 3D RTM-TTI on multicores and many-cores.After data parallelism and memory optimization, the hot spot function of 3D RTM-TTI gains 35.99X speedup on two Intel Xeon CPUs, 89.75X speedup on one Intel Xeon Phi, 89.92X speedup on one NVIDIA K20 GPU compared with serial CPU baseline.This study makes RTM-TTI practical in industry.Since the computation pattern in RTM is stencil, the approaches also benefit a wide range of stencil-based applications. 相似文献

16.

GPU加速技术在治疗计划系统剂量计算中的应用

王玉王宏黄海龙《东北大学学报(自然科学版)》2012,33(5):649-652

基于CUDA编程技术,研究了如何将NVIDIA的GPGPU模型应用于剂量计算,并首次将该技术应用于基于点核卷积/迭加模型的三维放射治疗计划系统商业化产品.本工作对原有剂量计算模型做了改进,使其可以在device端进行并行处理.在程序架构设计中使用MFC导出类及动态库技术,避免了大量代码移植工作.对结果数据进行了比较与分析,确定了基于特定显卡效率最高的thread数目.结果表明:基于实际患者计划数据执行结果的评估,采用GPU技术加速,大大提高了系统剂量计算速度,使射野剂量计算速度在1 s以内,大大增强了产品市场竞争力. 相似文献

17.

基于多核的粗粒度2.5维电磁场正演并行算法

白洪涛李昂欧阳丹彤邢书豪刘雪飞《吉林大学学报(理学版)》2014,52(3):509-514

基于CPU多核处理器实现了粗粒度2.5维电磁场并行正演算法, 使用OpenMP对串行算法的频率域进行粗粒度分解, 主线程进行任务分配, 从线程在CPU多核上并行计算各频率域电磁场值, 并分析了OpenMP并行效率与模型及核心数目的关系. 多组不同模型测试结果表明, 本文并行方法与串行方法得到的数值结果相同, 并获得了接近CPU逻辑核心数目的性能提升. 相似文献

18.

GPU架构下的并行计算

杨柳刘铁英《吉林大学学报(信息科学版)》2012,30(6):630-633

为降低粒子群优化算法(PSO: Particle Swarm Optimization)时间和空间的复杂度随问题规模的增大而越来越高的问题, 对图形处理器（GPU: Graphic Processing Unit）用于并行计算的方法进行了分析, 利用GPU的并行特性, 实现了粒子群优化算法路径搜索过程的并行化。测试函数实验结果证明, GPU平台较CPU模式下的计算, 其搜索速率有明显提高。相似文献

19.

基于图形处理器加速的叶轮机流场数值模拟研究

张翔黄秀全《科学技术与工程》2013,13(11):3195-3199

近年来,图形处理器(GPU)已经逐渐发展成一种能够满足通用计算的多核心细粒度并行化的处理器,它往往能够提供10倍于CPU的浮点计算能力和更高的存储带宽,在其上开发计算流体力学(CFD)求解器正成为一种趋势。通过采用Jameson有限体积中心差分格式和四步Runge-Kutta时间推进法求解圆柱坐标系下的三维定常欧拉方程来模拟叶轮机械内部流场,并将原有运行在CPU上的代码移植到GPU上。通过比较,获得相同的流场计算结果;在运行速度上,获得了一个数量级的提升。相似文献