首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
CUDA(Compute Unified Device Architecture,计算统一设备架构),是由NVIDIA开发的并行运算架构。对于软件开发人员,CUDA是一种通过行业标准语言,运行于图形处理单元上的计算方式。本文基于CUDA计算平台,对N-Body问题的并行实现算法进行了讨论,结果表明,合理的并行策略能有效地提高算法的运行效率。  相似文献   

2.
魏紫 《科技信息》2009,(27):45-45
CUDA(Compute Unified Device Architecture,计算统一设备架构),是由NVIDIA开发的并行运算架构,它基于C语言的接1:2,提供了利用GPU进行高性能并行计算的方法。本文基于CUDA计算平台,对K近邻算法(KNN算法)的快速实现进行了研究,实验表明,利用NVIDIA GeForce 8800 GTX显示芯片实现的KNN搜索算法比在Penfium43.4GHz的CPU上的实现速度提高了120倍。  相似文献   

3.
为了能够有效提高基于时域的SAR回波仿真的运行速度,本文提出了一种基于GPU架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。  相似文献   

4.
为了能够有效提高基于时域的SAR回波仿真的运行速度,提出了一种基于图形处理器(GPU)架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。  相似文献   

5.
GPU是图形加速卡的处理单元,具有大量的并行流水线,通常,其浮点运算能力是同代的CPU的10倍以上。本文介绍了一种尚在完善中的利用GPU强大的浮点运算能力来加速通用科学计算的编程模型CUDA。CUDA是用于GPU计算的开发环境,它是一个全新的软硬件架构,可以将GPU视为一个并行数据计算的设备,对所进行的计算进行分配和管理。  相似文献   

6.
结合云计算中Map/Reduce分布式编程技术引入了基于CPU-GPU异构混合并行编程模式,给出了该并行编程模式的原理和实现过程。该模式通过采用CUDA多线程并行机制提高了大规模数据处理的效率。文中对比分析了云计算中两种典型的分布式存储系统GFS和HDFS,最后从宏观角度阐释了云计算虚拟化技术的三层部署架构和基本类型。  相似文献   

7.
面向CPU+GPU异构计算的SIFT   总被引:1,自引:0,他引:1  
依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍.  相似文献   

8.
提出了一种在CNGrid网格服务环境下解决期权定价问题的并行应用方法.这种方法基于BSDE(backward stochastic differential equation)模型.根据异构计算资源的特点,使用CUDA和MPI分别在GPU计算节点和CPU计算节点上实现并行算法,比较不同编程在异构计算节点上的实现效率.通过监控计算节点上计算任务的负载状况,利用CNGrid所提供的计算服务,灵活地在异构计算节点上完成期权定价计算任务.  相似文献   

9.
针对基于Python语言的粒子群优化算法利用GPU实现加速的空缺问题,提出一种基于GPU和Python的改进粒子群优化算法:以CUDA架构和Python的Numba库为工具,将算法中的粒子评价、个体历史最优解更新、粒子升级三个部分进行CUDA编程,CUDA核函数中每个线程按单个粒子并行调用,在默认流中完成计算.经4种测试函数实验验证,所提出的改进算法在维数和粒子数较小时运行速度不及粒子群优化算法,在维数和粒子数较大时加速效果明显,最优速度达到粒子群优化算法的3倍以上.  相似文献   

10.
基于CUDA平台的时域有限差分算法研究   总被引:1,自引:1,他引:0  
文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。  相似文献   

11.
目前基于图像的场景识别的方法都依赖于对图像特征的选取及特征数目的精简.提出了一种基于部分连接演化神经网络模型来进行图像场景识别的新方法:不对图像进行特征提取,而是将待识别图像的每个像素都作为神经网络的输入.为了克服新方法由于大量神经元引起的模型训练时间过长问题,将基于C语言计算架构的演化神经网络模型创造性地移植到基于图形处理器(GPU)的通用并行计算构架(CUDA),神经网络的演化训练速度提高200倍以上.在实验中,尽管输入的图像大小达到300×400像素(120 000个输入神经元),但CUDA的部分连接演化神经网络对场景图像有较强的识别能力,对亮度、缩放、旋转等变化也有较好的鲁棒性.  相似文献   

12.
针对NVIDIA GeForce8800GTX与Intel Core2Quad Q6600运算平台,比较和测试了在CUFFTlibrary(version1.1)和FFTW(MKL version10.2)下GPU与CPU的运行响应差异,得出在快速傅里叶变换运算中,GPU的运算性能较之CPU有10倍以上的优势,从而进一步对相干消色散算法进行了移植,引入CHIRP函数,并在CUDA平台中进行性能测试,最后给出GPU相干消色散系统的性能测试。  相似文献   

13.
随着GPU在高性能计算领域更多地用于科学计算,采用GPU技术对大型稀疏线性方程组进行计算,从而满足人们对计算速度和计算精度要求的提高。NVIDIA Fermi架构的开发,大大提升了GPU的双精度浮点运算能力。拟极小残差法(QMR)作为高性能计算领域中的重要迭代算法,基于求解稀疏代数方程组对ELL算法进行GPU优化。通过对不同规模线性方程组计算分析表明,QMR-GPU的性能提升为原始QMR的3.5倍,与传统的BICG法相比,QMR并行算法具有速度和存储优势,可获得良好的并行加速比。  相似文献   

14.
基于GPU的数字信号处理中相关性计算的研究   总被引:1,自引:0,他引:1  
现代信号处理和通信系统对信号的处理,正变得越来越复杂并且计算也越来越密集,如何提高这些领域中信号处理的运算速度和运算精度已经成为当今一个重要的研究方向,GPU由于其特殊的结构,使其非常适合用于加速数据运算仿真和图形图像分析.本文提出一种基于GPU的信号相关性并行计算的方法,通过实验验证得出基于GPU的数字信号相关性的并行处理方法明显优于基于CPU下的处理方法,实验结果最高加速比达到了14.5倍,现代GPU技术的发展给通信信号处理领域带来新的途径.  相似文献   

15.
分析了K-means算法在GPU上实现并行计算的可能性,并在GTX8800 GT显卡上实现,研究了GPU的存储访问机制,在对数据进行合理组织基础上对算法进行改进,避免了存储体冲突的产生,提高了算法的健壮性.研究结果证明该方法在GPU上的并行运算速度明显快于CPU,加速比高.  相似文献   

16.
针对实际人脸识别系统需要满足实时性的应用需要,探讨了在图形处理器(GPU)硬件架构基础上的基于主成分分析(PCA)人脸识别系统设计与实现.结合统一计算设备架构(CUDA)的计算平台,通过将算法中耗时长、适合并行的部分过程映射到GPU上并行执行改进系统的加速实现.实验结果表明:相对于基于CPU平台的串行实现,基于GPU的实现在整体上能够获得约5倍的加速,而两个执行并行的模块能分别获得最大20倍和30倍的加速.  相似文献   

17.
在表面缺陷自动光学检测图像处理中,需要对每个缺陷进行标记,便于后续判别缺陷的类型、大小、位置、方向等Blob特性。研究了应用Hotelling变换(霍特林变换)求出缺陷的主轴方向和最小外接矩形,沿着主轴方向将缺陷标记出来的算法,并给出了应用NVIDIA的CUDA架构对标记算法进行加速实现的方法。研究结果表明,根据图像缺陷大小的不同,可以取得5~10倍的加速。  相似文献   

18.
张翔  黄秀全 《科学技术与工程》2013,13(11):3195-3199
近年来,图形处理器(GPU)已经逐渐发展成一种能够满足通用计算的多核心细粒度并行化的处理器,它往往能够提供10倍于CPU的浮点计算能力和更高的存储带宽,在其上开发计算流体力学(CFD)求解器正成为一种趋势。通过采用Jameson有限体积中心差分格式和四步Runge-Kutta时间推进法求解圆柱坐标系下的三维定常欧拉方程来模拟叶轮机械内部流场,并将原有运行在CPU上的代码移植到GPU上。通过比较,获得相同的流场计算结果;在运行速度上,获得了一个数量级的提升。  相似文献   

19.
针对传统光线投射算法绘制速度慢和GPU (Graphics Processing Unit,图形处理器)不能有效进行并行计算的缺点,文章提出一种基于包围跳跃的CUDA(Compute Unified Device Architecture,计算统一设备架构)光线投射算法,首先介绍了CUDA的编程模型和线程结构,然后用包围盒技术隔离体数据周围无效的空体素,减少投射光线的数目;利用光线跳跃技术,在包围盒内进行快速光线的合成,跳过透明的体素,减少大量体素的重采样;最后使用CUDA强大的并行处理计算的功能实现光线投射算法。实验结果表明,本文的方法在保证图像质量的同时,在绘制速度上比基于GPU加速的光线投射算法有14倍的提高,能够接近实时绘制,有很好的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号