期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐鹏魏紫《科技信息》2009,(27)

CUDA(Compute Unified Device Architecture,计算统一设备架构),是由NVIDIA开发的并行运算架构。对于软件开发人员,CUDA是一种通过行业标准语言,运行于图形处理单元上的计算方式。本文基于CUDA计算平台,对N-Body问题的并行实现算法进行了讨论,结果表明,合理的并行策略能有效地提高算法的运行效率。相似文献

2.

基于GPU加速的全源对最短路径并行算法

肖汉肖诗洋李焕勤周清雷《云南大学学报(自然科学版)》2023,(5):1022-1032

针对最短路径算法处理大规模数据集低效的问题，提出了基于图形处理器（Graphics Processing Unit,GPU）加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据，然后减少了非规则行造成的工作项分支，最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明，与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理（Open Multi-Processing, OpenMP）并行算法和基于统一计算设备架构（Compute Unified Device Architecture, CUDA）并行算法相比，最短路径并行算法在开放式计算语言（Open Computing Language, OpenCL）架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比，验证了提出的并行优化方法的有效性和性能可移植性. 相似文献

3.

CPU+GPU异构并行的矩阵转置算法研究

肖汉李彩林李琦周清雷《东北师大学报(自然科学版)》2019,51(4)

针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植. 相似文献

4.

引导滤波算法的CUDA加速实现

王新磊何凯王晓文《吉林大学学报(信息科学版)》2016,34(1):104-110

针对引导滤波算法运算速度慢、无法实时处理的问题, 提出基于统一计算设备架构(CUDA: Compute Unified Device Architecture)实现引导滤波算法的加速。利用CUDA 并行编程实现图像邻域窗口像素值求和,进而获得图像邻域均值; 通过利用寄存器和纹理存储器, 同时优化算法步骤, 获得引导滤波关键参数, 进而实现对算法的整体优化。实验结果表明, 与基于CPU 实现引导滤波算法相比, 基于CUDA 并行处理可在很大程度上提高运算速度, 基本达到了实时处理的要求。相似文献

5.

基于GPU的图像处理算法研究

张春杨俊《西南师范大学学报(自然科学版)》2013,38(7)

对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行了研究和实现.针对目前图像处理算法日益复杂,性能要求越来越高,而传统的基于CPU的图像处理算法无法满足需求的情况,充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现了图像处理算法.研究并设计了高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,与CPU的性能对比表明基于GPU图像处理算法的效率更高. 相似文献

6.

基于霍特林变换与CUDA架构的缺陷标记方法

王成顺卢荣胜李琪付琰《科学技术与工程》2012,12(11):2556-2560

在表面缺陷自动光学检测图像处理中,需要对每个缺陷进行标记,便于后续判别缺陷的类型、大小、位置、方向等Blob特性。研究了应用Hotelling变换（霍特林变换）求出缺陷的主轴方向和最小外接矩形,沿着主轴方向将缺陷标记出来的算法,并给出了应用NVIDIA的CUDA架构对标记算法进行加速实现的方法。研究结果表明,根据图像缺陷大小的不同,可以取得5~10倍的加速。相似文献

7.

基于GPU的矩阵求逆性能测试和分析

刘丽沈杰李洪林《华东理工大学学报(自然科学版)》2010,36(6)

在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。相似文献

8.

基于异构平台的图像中值滤波的OpenCL加速算法

肖诗洋王镭杜莹肖汉《河北大学学报(自然科学版)》2024,(1):92-103

图像噪声降低了图像信噪比和质量,去噪是图像处理工作的重要环节之一.本文提出了一种基于开放式计算语言(OpenCL)架构的图像中值滤波快速降噪并行算法.介绍了OpenCL体系结构特点和中值滤波处理流程.根据图形处理器(GPU)的并发结构特点,对图像中值滤波功能模块进行了并行优化,降低了算法复杂度.通过充分激活NDRange索引空间中的工作组和工作项来提高数据访问效率,优化内核工作组配置参数,实现了中值滤波器的并行处理.实验结果表明,在图像质量保持不变的情况下,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,图像中值滤波并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了29.74、17.29、1.15倍的加速比.验证了算法的有效性和平台的可移植性,基本满足应用的实时性处理要求. 相似文献

9.

基于GPU的高阶辛FDTD算法的并行仿真研究 总被引：1，自引：0，他引：1

马巍巍孙冬吴先良孙兵兵《合肥工业大学学报(自然科学版)》2012,35(7):926-929

高阶辛时域有限差分算法(SFDTD)与传统的时域有限差分算法(FDTD)相比具有更优的稳定性和计算精度,但在进行电磁仿真时则更为耗时。为解决这一问题,文章应用SFDTD的空间并行性,研究并实现了基于计算统一设备架构(CUDA)的SFDTD的并行算法仿真;基于费米架构,分析了各种尺度网格下速度的提升,与传统的CPU实现该算法进行比较,验证了该方法的正确性和高速性。相似文献

10.

基于CUDA架构并行算法的带地形AMT二维反演实现与应用

韩思旭陈小斌陈卫营罗强宋婉婷《科学技术与工程》2021,21(31):13268-13276

并行计算是提高音频大地电磁（audio-frequency magnetotelluric method,AMT）数据反演效率的有效途径。本文在统一计算设备架构(compute unified device architecture,CUDA) 下开展带地形的AMT数据二维反演并行算法研究,旨在利用GPU强大的计算能力及并行计算技术实现高精度、快速度的AMT数据二维反演。首先利用有限元和自适应正则化反演算法实现AMT数据二维反演的串行化计算;然后在PGI Visual Fortran+ CUDA5.5环境下编写基于CPU+GPU的CUDA并行代码,将正演中的频率循环、反演中的模型灵敏度矩阵计算和反演方程正则化求解部分进行并行化处理;通过不同复杂程度的理论模型正反演模拟验证了该并行算法的有效性和准确性。不同模型和不同模式下的数值模拟结果对比表明,基于CPU+GPU的CUDA并行算法相较于传统的CPU串行算法,在灵敏度矩阵计算和反演方程正则化方面耗时更少,加速比最高可达10倍以上。最后将该并行算法应用于某矿区实测AMT数据的二维反演中,取得了较好的应用效果。相似文献

11.

基于GPU和Python的粒子群优化算法研究

熊大卫胡建陈园《西南民族大学学报(自然科学版)》2023,(4):424-428

针对基于Python语言的粒子群优化算法利用GPU实现加速的空缺问题,提出一种基于GPU和Python的改进粒子群优化算法：以CUDA架构和Python的Numba库为工具,将算法中的粒子评价、个体历史最优解更新、粒子升级三个部分进行CUDA编程,CUDA核函数中每个线程按单个粒子并行调用,在默认流中完成计算.经4种测试函数实验验证,所提出的改进算法在维数和粒子数较小时运行速度不及粒子群优化算法,在维数和粒子数较大时加速效果明显,最优速度达到粒子群优化算法的3倍以上. 相似文献

12.

基于CUDA的光线跟踪实现中纹理内存的应用研究

陆建勇焦良葆《中国新技术新产品精选》2009,(23):40-41

CUDA是由NVIDIA开发的用于通用并行计算的开发平台,可方便地实现并行算法的编程。本文利用光线跟踪算法具有的天然可并行性,采用KD树加速结构,在CUDA上实现光线跟踪的并行算法,经过纹理内存的优化使用后,可达到交互式光线跟踪。相似文献

13.

基于包围跳跃的计算统一设备架构光线投射算法

方军房晓阳肖亮《科学技术与工程》2014,(12):251-255

针对传统光线投射算法绘制速度慢和图形处理器(graphics processing unit,GPU)不能有效进行并行计算的缺点,文章提出一种基于包围跳跃的计算统一设备架构(compute unified device architecture,CUDA)光线投射算法。首先介绍了CUDA的编程模型和线程结构,然后用包围盒技术隔离体数据周围无效的空体素,减少投射光线的数目;利用光线跳跃技术,在包围盒内进行快速光线的合成,跳过透明的体素,减少大量体素的重采样;最后使用CUDA强大的并行处理计算的功能实现光线投射算法。实验结果表明,在保证图像质量的同时,绘制速度上比基于GPU加速的光线投射算法有14倍的提高,能够接近实时绘制,有很好的应用价值。相似文献

14.

基于包围跳跃的CUDA光线投射算法

方军房晓阳肖亮《科学技术与工程》2014,14(12)

针对传统光线投射算法绘制速度慢和GPU (Graphics Processing Unit,图形处理器)不能有效进行并行计算的缺点,文章提出一种基于包围跳跃的CUDA(Compute Unified Device Architecture,计算统一设备架构)光线投射算法,首先介绍了CUDA的编程模型和线程结构,然后用包围盒技术隔离体数据周围无效的空体素,减少投射光线的数目;利用光线跳跃技术,在包围盒内进行快速光线的合成,跳过透明的体素,减少大量体素的重采样;最后使用CUDA强大的并行处理计算的功能实现光线投射算法。实验结果表明,本文的方法在保证图像质量的同时,在绘制速度上比基于GPU加速的光线投射算法有14倍的提高,能够接近实时绘制,有很好的应用价值。相似文献

15.

开放式计算语言加速的分段前缀和并行算法

肖汉李彩林郭宝云周清雷《科学技术与工程》2019,19(31):215-221

针对数值计算中前缀和运算数据量大、耗时巨大这一难题,提出了一种基于开放式计算语言（Open Computing Language,OpenCL）的分段式前缀和并行算法。首先进行了分段式前缀和算法的并行性分析,对任务进行了层次化分解与组合,设计了两级并行的分段式前缀和算法;然后通过OpenCL编程将前缀和并行算法映射到CPU+GPU系统平台上,实现了层次化并行前缀和处理;最后,根据计算单元（Compute Unit,CU）的资源条件,增加CU中本地存储器的分配,通过改进工作节点的访问模式来降低bank冲突,提高访存速度。实验结果表明,与基于AMD Opteron 2439 SE CPU的串行算法、基于OpenMP（Open Multi-Processing）并行算法和基于统一计算设备架构并行算法性能相比,前缀和并行算法在OpenCL架构下NVIDIA Tesla C2075计算平台上分别获得了33.51倍、6.26倍和2.41倍的加速比。验证了提出的并行优化方法的有效性和性能可移植性。相似文献

16.

GPU加速数据挖掘算法的研究 总被引：1，自引：0，他引：1

刘琳何剑锋王红玲《郑州大学学报(理学版)》2010,42(2)

分析了GPU的主要架构,在与CPU编程进行对比的同时,基于nVidia的CUDA(compute unified device ar-chitecture),改进了数据挖掘中常用的朴素贝叶斯算法,实现了GPU硬件加速.测试表明,在处理海量浮点数据的分类与排序中,利用图形处理器强大的计算能力获得了较高的实时性.改进算法易于理解和操作,对于GPU在数据挖掘领域的应用具有一定的借鉴意义. 相似文献

17.

Lattice-Boltzmann方腔模型的CUDA加速实现

郑彦奎《科学技术与工程》2010,10(7)

对Lattice Boltzmann方法(LBM)在CUDA下的建模和算法进行了研究,使得该方法在GPU下的计算速度得到提升,大大缩短了计算过程的时间消耗。利用非平衡外推边界条件处理,以LBM方法模拟了D2Q9模型的方腔顶盖驱动流动,采用全局内存和纹理内存存储数据,将模型中9个分布函数存储为二维网格,每个网格分配一个线程,每个线程块包括256个线程,多条线程并行计算。在普通个人计算机上,采用NVIDIA GeForce 9600 GT显卡和CUDA,实现了LBM模拟方腔流动,将计算速度提高到CPU的50倍。相似文献

18.

基于CUDA技术城市小区电波传播并行计算的研究 总被引：1，自引：1，他引：0

陈辉张龙才《重庆邮电大学学报(自然科学版)》2013,25(3):347-352

无线电射线跟踪效率一直是电波传播场强模拟预测的核心问题之一。随着计算统一设备架构(compute u-nified device architecture,CUDA)技术的提出彻底改变传统的x86硬件架构体系,从硬件底层上为并行计算提供了可能。在CUDA被提出用于通用计算的前提下,提出了CUDA技术与射线跟踪相结合,介绍了CUDA如何实现异构体计算,如何在CUDA硬件平台上实现并行化编程,然后通过一个简单的三维地理数据模型实现了无线电波射线跟踪的并行化计算。最后对实验结果进行了分析与总结,证明CUDA技术能很好地提高运算效率。相似文献

19.

基于CUDA的最大互相关算法加速处理研究

《甘肃科技》2019,(22)

提出了一种基于CUDA平台的最大互相关算法加速处理的方法,利用CUDA强大的并行处理能力提高图像匹配过程中实时性。对最大互相关函数做了分解和计算,并对函数在CUDA中的实现做了分析和设计,最后通过比对相同图像在CPU和GPU中的计算时间验证CUDA平台处理最大互相关函数的加速处理研究效果。相似文献

20.

基于OpenCL的图像灰度化并行算法研究

肖汉郭宝云李彩林肖诗洋《江西师范大学学报(自然科学版)》2020,44(5):462-471

随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证. 相似文献