期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

付小波马中高余嘉顺原健龙韩超《科学技术与工程》2018,18(11)

比较分析了在不同网格大小介质模型情况下,分别采用串行计算、CPU 16个线程并行计算和4块GPU并行计算进行各向异性弹性波动方程正演模拟的执行时间差异。发现在网格点为2563的大模型上,用4块GPU的并行模拟计算相对16线程并行计算与串行计算的加速分别为30倍与156倍。表明多GPU并行算法可以显著缩短数值模拟时间,而且模型网格越大,加速效果越显著。因此,在单机环境下进行大尺度模型的各向异性弹性波正演模拟,采用多GPU并行计算方式是一个合适的加速选择。相似文献

2.

基于多图形处理单元加速的各向异性弹性波正演模拟 总被引：1，自引：0，他引：1

付小波马中高余嘉顺原健龙韩超《科学技术与工程》2018,(11)

比较分析了在不同网格大小介质模型情况下,分别采用串行计算、CPU 16个线程并行计算和4块图形处理单元(GPU)并行计算进行各向异性弹性波动方程正演模拟的执行时间差异。发现在网格点为256~3的大模型上,用4块GPU的并行模拟计算相对16线程并行计算与串行计算的加速分别为30倍与156倍。表明多GPU并行算法可以显著缩短数值模拟时间,而且模型网格越大,加速效果越显著。因此,在单机环境下进行大尺度模型的各向异性弹性波正演模拟,采用多GPU并行计算方式是一个合适的加速选择。相似文献

3.

基于OpenCL的图像灰度化并行算法研究

肖汉郭宝云李彩林肖诗洋《江西师范大学学报(自然科学版)》2020,44(5):462-471

随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 相似文献

4.

CPU+GPU异构并行的矩阵转置算法研究

肖汉李彩林李琦周清雷《东北师大学报(自然科学版)》2019,51(4)

针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献

5.

Lattice-Boltzmann方腔模型的CUDA加速实现

郑彦奎《科学技术与工程》2010,10(7)

对Lattice Boltzmann方法(LBM)在CUDA下的建模和算法进行了研究,使得该方法在GPU下的计算速度得到提升,大大缩短了计算过程的时间消耗。利用非平衡外推边界条件处理,以LBM方法模拟了D2Q9模型的方腔顶盖驱动流动,采用全局内存和纹理内存存储数据,将模型中9个分布函数存储为二维网格,每个网格分配一个线程,每个线程块包括256个线程,多条线程并行计算。在普通个人计算机上,采用NVIDIA GeForce 9600 GT显卡和CUDA,实现了LBM模拟方腔流动,将计算速度提高到CPU的50倍。相似文献

6.

基于大地电磁二维反演的MPI和CUDA并行算法研究

汪茂《科学技术与工程》2017,17(10)

大地电磁测深法属于天然场源的电磁勘探方法,是以岩石的电性差异为基础和前提的勘探方法。所采用的大地电磁二维反演方法为共轭梯度法,该方法避免了求解雅可比矩阵,效率较高,但是在将模型剖分较细时,多频率进行计算时效率有待提高。基于大地电磁频率依次独立处理数据的特点,采用了MPI的并行算法来提高效率,为了使得计算效率更高,在MPI的基础上增加了CUDA并行运算方法,用多个进程同时来计算各频率数据,在求解方程的过程中采用CUDA进行加速,得到计算结果。通过对正演和反演图的比较,验证了程序的正确性。对并行算法的效率进行了统计,进程数为2~4时,加速比能达到2.15~3.09,比单一的MPI并行算法的加速比要高,验证了程序的有效性。相似文献

7.

大地电磁主轴各向异性二维理论模型反演分析

杨淼鑫谭捍东梁盛军《科学技术与工程》2019,19(4)

地下介质普遍存在各向异性,为反应地下真实地质情况,需建立各向异性模型进行研究。本文主要进行主轴各向异性大地电磁二维反演研究,采用有限单元法作为正演模拟方法,将正演响应结果与前人计算结果进行对比分析,验证了算法的正确性,并对不同方向上电阻率响应灵敏度进行分析。采用非线性共轭梯度法进行反演研究,该方法不需要直接计算雅克比矩阵,相对于其他反演方法节省了计算时间,计算效率高;目标函数的建立对于不同方向上的电阻率采用不同的正则化参数来进行约束。通过复杂的各向异性体模型进行反演,结果显示对于不同方向上电阻率的恢复以及异常体位置的圈定都取得了较好的效果,说明了反演算法的有效性。相似文献

8.

含地形起伏的MT模型非规则四边形FEM正演与反演

冯德山刘金宝王珣《中南大学学报(自然科学版)》2018,(3)

从大地电磁(MT)边值问题满足的变分方程出发,采用非规则四边形网格、双线性插值有限单元法(FEM)开展复杂起伏地形MT模型正演,探讨二维Jacobian变换行列式的计算方法,推导任意非规则四边形单元的插值方式及单元系数矩阵表达式,实现起伏地形MT模型的高精度正演。然后,介绍光滑约束的Tikhonov正则化反演算法,针对反演中正则化参数选取困难的问题,将广泛应用的L-curve法引入反演的正则化参数选取中。研究结果表明:L-curve法的曲线中曲率最大的拐点准确地指示了最优正则化参数;L-curve法选取的最优正则化参数对应的反演结果与原模型所示结果吻合度最高,反演效果最好。相似文献

9.

面向CPU+GPU异构计算的SIFT 总被引：1，自引：0，他引：1

肖汉郭运宏周清雷《同济大学学报(自然科学版)》2013,41(11):1732-1737

依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍. 相似文献

10.

基于GPU的近场动力学模拟的并行化方法

《上海交通大学学报》2016,(9)

针对近场动力学(PD)模型计算量庞大、计算效率低的问题,研究了基于GPU的PD建模过程的并行化方法.通过将前处理及求解过程中各物质点的计算映射到GPU的单个线程,实现模型的多线程高效并行计算.计算程序在Microsoft Visual Studio 2010集合CUDA 4.0工具包的开发环境下执行,采用CUDA C进行编写.对复合材料层压板的2种PD模型(键型PD模型和态型PD模型)的计算表明,采用GPU并行运算的模型模拟结果与试验结果吻合良好,并且相比于CPU串行计算,GPU并行计算获得了2.6~10.3倍的加速比,降低了PD模型的计算代价. 相似文献

11.

二维FFT在GPU上的并行实现

陈瑞童莹《南京工程学院学报(自然科学版)》2009,7(2):41-45

FFT算法是高度并行的分治算法,因此适合在GPU（Graphics Processing Unit,图形处理器）的CUDA（Compure Unified Device Architecture,计算统一设备体系结构）构架上实现．阐述了GPU用于通用计算的原理和方法,并在Geforce8800GT平台上完成了二维卷积FfTr的运算实验．实验结果表明,随着图像尺寸的增加,CPU和GPU上的运算量和运算时间大幅度增加,GPU上运算的速度提高倍数也随之增加,平均提升20倍左右．相似文献

12.

基于GPU的模态分析并行算法

朱彬张宜生王梁田晓薇《华中科技大学学报(自然科学版)》2012,40(5):33-36

开发了基于图形处理器（GPU）的Cholesky分解并行算法,应用于模态计算程序中,对计算进行加速.算例测试表明该算法相对串行算法计算性能大幅提升,且加速比随矩阵阶数增加而增加,与串行程序相比加速比可达到19.6,此时GPU浮点运算能力达到298Gflops.GPU程序固有频率计算结果与Abaqus计算结果的误差在2%以内,具有足够的计算精度. 相似文献

13.

基于GPU的高阶辛FDTD算法的并行仿真研究 总被引：1，自引：0，他引：1

马巍巍孙冬吴先良孙兵兵《合肥工业大学学报(自然科学版)》2012,35(7):926-929

高阶辛时域有限差分算法(SFDTD)与传统的时域有限差分算法(FDTD)相比具有更优的稳定性和计算精度,但在进行电磁仿真时则更为耗时。为解决这一问题,文章应用SFDTD的空间并行性,研究并实现了基于计算统一设备架构(CUDA)的SFDTD的并行算法仿真;基于费米架构,分析了各种尺度网格下速度的提升,与传统的CPU实现该算法进行比较,验证了该方法的正确性和高速性。相似文献

14.

基于Fermi架构的超声图像自动增益补偿并行算法

何兴无张霞《科技导报(北京)》2012,30(31):61-65

在医学超声成像系统中由于超声波在人体组织内传播会发生衰减,需要对超声图像进行有效的增益补偿,使超声图像的显示效果更好。但大多数自动增益补偿算法在处理时涉及大量的复杂计算,成为临床实时成像系统中的一大性能提升瓶颈,为此提出了一种基于高性能并行计算平台Fermi架构图形处理单元(GPU)的自动增益补偿并行处理算法。本算法主要的处理流程有数据预处理、区域类型检测、组织强度计算、二次曲面拟合以及自适应增益补偿等部分,核心的并行算法设计包括了粗粒度的并行均值滤波、局部方差系数的并行计算、优化的矩阵转置并行实现以及基于LU分解的粗粒度的矩阵求逆的并行实现等方面。数据测试结果显示,与基于CPU的实现相比,采用Fermi架构的GPU处理不仅可以得到完全一致和较好的增益补偿效果,而且可以取得较大的加速效果,满足实时系统需求,对512×261的图像数据能够达到427帧/s的高帧率,速度提高了大约267倍。相似文献

15.

地震波能量补偿的并行反Q滤波方法研究

张全王一品张伟彭博胥林《西南石油大学学报(自然科学版)》2023,45(1):24-32

在石油勘探地震资料处理中,反Q滤波方法能有效地对地震波进行振幅补偿和相位校正,为地震反演和储层预测提供更准确的信息。对于大规模的地震道集数据处理,反Q滤波方法在CPU计算平台上执行时间较长,影响了地震解释的效率。分析发现,反Q滤波方法大量时间消耗在振幅相位补偿与短时傅里叶变换。在GPU平台上,首先,对振幅相位补偿部分进行并行化;其次,对批量短时傅里叶变换用CUFFT库进行加速;最后,对批量短时傅里叶变换进一步优化并将其应用于反Q滤波方法。实验结果表明,相比CPU计算环境,基于CUFFT库的反Q滤波并行算法效率提升了3.9倍,优化后的批量短时傅里叶变换进一步将效率提升了12%。相似文献

16.

基于多核CPU的卫星云导风并行反演算法

王昌帅何丽莉欧阳丹彤白洪涛《吉林大学学报(理学版)》2016,54(3):539-546

针对卫星云导风反演算法规模大、计算密集、耗时长, 常规云导风反演串行算法效率低的问题, 根据云导风反演中各风矢计算相对独立的特征, 提出一种基于OpenMP框架的云导风反演并行算法. 通过对多组云图数据在多核CPU上反演结果进行分析表明, 该算法显著提高了云导风反演的效率. 相似文献

17.

基于CUDA平台的时域有限差分算法研究 总被引：1，自引：1，他引：0

沈琛王璐胡玉娟吴先良《合肥工业大学学报(自然科学版)》2012,35(5):644-647

文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。相似文献