首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
提出一种基于图形处理单元(Graphic Processing Unit,GPU)的不可压缩流体并行模拟算法.该算法使用并行基数排序技术提升了邻居查找效率,同时使用了GPU上的片上高速共享存储器,将流体计算过程中所需用到的数据尽可能从GPU的全局存储器中拷贝至共享存储器中,减小数据访问延迟,提高模拟效率.实验结果表明,基于GPU的并行模拟算法可以大幅提高流体模拟程序的性能,与基于CPU的单线程实现相比,可以到达38.2倍的加速比.  相似文献   

2.
刘勇  苏军 《科技信息》2010,(17):I0078-I0078,I0023
采用AMD公司的Radeon HD 5870GPU与Intel公司的Corei7 940 CPU作为比较测试平台,分别用OPENCL与单线程C代码编写的一维快速傅里叶变换进行测试。测试结果表明,在GPU充分并行的情况下,其性能相对于同价位CPU单线程性能提高30倍以上,即使对于充分利用CPU所有核心的多线程性能也能提高10倍左右。  相似文献   

3.
为了有效地发掘和利用异构系统在应用和体系结构上的并行性,以冷冻电镜三维重构为例展示如何利用应用程序潜在的并行性.通过分析重构计算所有的并行性,实现了将动态自适应的划分算法用于任务在异构系统上高效的分发.在曙光星云系统的部分节点系统(32节点)上评估并行化的程序性能.实验证明:多层次的并行化是CPU与GPU异构系统上开发并行性的有效模式;CPU-GPU混合程序在给定问题规模上相对单纯CPU程序获得2.4倍加速比.  相似文献   

4.
针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要.  相似文献   

5.
介绍了在桌面计算机上利用格子Boltzmann方法(LBM)与图形处理器(GPU)计算的发展背景,分析了LBM的标准形式及其天生并行特性的成因,介绍了所采用的CUDA编程模型及Kepler计算架构.为了验证桌面计算机上利用LBM的GPU计算的应用能力,对二维方柱绕流问题进行了数值模拟,并将模拟结果与有限体积法的计算结果进行对比.结果表明:对于方柱绕流问题,GPU计算的模拟计算效率约为CPU计算的3.4倍,桌面计算机上利用LBM的GPU计算具有一定的通用科学计算能力.  相似文献   

6.
针对当前算法优化研究一般局限于单一硬件平台、很难实现在不同平台上高效运行的问题,利用图形处理器(GPU)提出了基于开放式计算语言(OpenCL)的矩阵转置并行算法.通过矩阵子块粗粒度并行、矩阵元素细粒度并行、工作项与数据的空间映射和本地存储器优化方法的应用,使矩阵转置算法在GPU计算平台上的性能提高了12倍.实验结果表明,与基于CPU的串行算法、基于开放多处理(OpenMP)并行算法和基于统一计算设备架构(CUDA)并行算法性能相比,矩阵转置并行算法在OpenCL架构下NVIDIA GPU计算平台上分别获得了12.26,2.23和1.50的加速比.该算法不仅性能高,而且实现了在不同计算平台间的性能移植.  相似文献   

7.
现有的基于CPU的流处理系统在功能上已支持在大规模数据集上的复杂分析查询,但由于CPU计算能力与特性的限制,无法在性能上同时满足高吞吐量和低响应时间的要求.本文提出一种基于GPU的流处理系统框架Serval,通过充分利用CPU-GPU异构资源,实现了关系型流查询的高效处理.Serval框架采用流水线模型和流执行缓存技术以优化吞吐量和响应时间,并实现多种调优策略以适应不同场景.实验表明,单节点Serval的吞吐量与响应时间性能均优于现有GPU数据库MapD和三节点分布式服务器上的Spark Streaming.  相似文献   

8.
为了能够有效提高基于时域的SAR回波仿真的运行速度,提出了一种基于图形处理器(GPU)架构的SAR回波仿真优化实现方法。该方法结合GPU的计算密度高、高度并行的特点并利用CUDA流在GPU上同时执行多个任务,实现任务并行、指令并行和数据并行的三重并行,极大地挖掘了回波模拟全过程的并行性,缩短了回波仿真的运算时间。实验结果表明,该方法相对于传统的CPU上的串行算法平均加速比达到128倍,可用于实时信号处理。  相似文献   

9.
当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的Co-OLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型.Co-OLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000GPU(352个cuda核心)的处理性能,Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效.  相似文献   

10.
期权是金融领域中投资者用以进行套利和避险交易的一种衍生性金融工具.相对于CPU,GPU有着更好的并行处理能力和带宽优势,将其用于期权定价计算将极大地提高运算性能.本文以经典的美式期权定价模型的最小二乘蒙特卡洛方法为基础,提出了该算法基-GPU的一种实现.该文对一维期权合约的定价在CPU和GPU北进行了比较,来探索用GPU进行期权定价计算的优越性.测试结果表明,在保证相应的系统稳定性的前提下,针对不同的模拟次数和时间步数,GPU平台在运算性能上明显优于CPU平台.  相似文献   

11.
利用基于图形处理器(GPU)的计算统一设备架构(CUDA) Fortran编程平台,对直接模拟蒙特卡洛(DSMC)方法进行并行优化,并以高超声速气动热计算为例,考察了串行与并行计算速度以及不同仿真分子数对并行效率的影响.结果表明,在保证计算精度不变的情况下,程序取得了4~10倍的加速比,并且加速性能高低与计算规模大小成正比.  相似文献   

12.
基于CUDA平台的时域有限差分算法研究   总被引:1,自引:1,他引:0  
文章针对传统时域有限差分(FDTD)算法的不足,以图形加速卡为核心,通过理论分析和数值模拟,研究并实现了基于CUDA平台的FDTD并行算法。CUDA是最新的可编程多线程的通用计算GPU模型,由于FDTD算法在空间上具有天然的并行性,因此非常适合在GPU上实现并行算。文章描述了在CUDA编程模型上的FDTD算法的设计以及优化过程,并通过数值仿真实验结果证明了基于GPU的并行FDTD算法可以大大减少计算时间,基于GPU加速已成为电磁场数值计算的研究热点之一。  相似文献   

13.
针对基于DMAS波束合成的平面波超声成像算法的图像对比信噪比偏低及算法复杂度大,无法实现实时成像的问题,提出了一种具有较高成像质量和较小计算复杂度的平面波超声成像算法DSBMGCF(delay sum before multiply and generalized coherence factor),借助FieldII仿真工具在Matlab上进行点目标和囊肿目标的仿真实验,验证了该算法的成像质量.同时,对所提出的新算法进行了并行化研究和改进,得到了一种适合在GPU上并行实现的平面波超声成像并行算法PDMASGCF(parallel delay multiply and sum generalized coherence factor),并在实验室戴尔T7810普通工作站上进行了平面波超声成像时间和质量的验证实验,获得了较高的成像帧频,并保证了较好的成像性能.  相似文献   

14.
采用Navier Stokes方程作为烟雾的物理模型方程, 基于图形处理器(GPU)实现了具有复杂光照效果和简单光照效果的烟雾动画实时绘制. 通过体素遍历整数算法加速烟雾的渲染并实现了烟雾的复杂光照. 实验结果对比表明, 复杂光照比简单光照模拟出的烟雾真实感更强. GPU远高于CPU对物理方程的求解速度, 使烟雾模拟实时性更强.  相似文献   

15.
基于GPU并行算法的水动力数学模型建立及其效率分析   总被引:1,自引:0,他引:1  
应用非结构化网格建立水动力模型目前已经得到了广泛的应用.针对在网格数过多,且无集群机情况下难以快速获得计算结果这一问题,基于GPU的高性能计算技术,在CUDA开发平台下设计并行算法,建立非结构化网格的二维水动力模型.与利用GTX460显卡和集群机的计算效率对比表明,在保持计算精度的前提下,速度提升了一个量级,且随着网格数的持续递增,可以保持较高的加速比增幅,比较适合应用于大范围海域的水动力模型的数值计算.  相似文献   

16.
面向CPU+GPU异构计算的SIFT   总被引:1,自引:0,他引:1  
依据图形处理器(GPU)计算特点和任务划分的特点,提出主从模型的CPU+GPU异构计算的处理模式.通过分析和定义问题中的并行化数据结构,描述计算任务到统一计算设备架构(CUDA)的映射机制,把问题或算法划分成多个子任务,并对划分的子任务给出合理的调度算法.结果表明,在GeForce GTX 285上实现的尺度不变特征变换(SIFT)并行算法相比CPU上的串行算法速度提升了近30倍.  相似文献   

17.
开发了基于图形处理器(GPU)的Cholesky分解并行算法,应用于模态计算程序中,对计算进行加速.算例测试表明该算法相对串行算法计算性能大幅提升,且加速比随矩阵阶数增加而增加,与串行程序相比加速比可达到19.6,此时GPU浮点运算能力达到298Gflops.GPU程序固有频率计算结果与Abaqus计算结果的误差在2%以内,具有足够的计算精度.  相似文献   

18.
随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证.  相似文献   

19.
彩虹表密码分析算法的图形处理器优化设计与实现   总被引:1,自引:0,他引:1  
设计了一种在图形处理器(GPU)上的彩虹表密钥分析算法.结合GPU单指令多线程的特点改进了Oechslin的彩虹表算法,将预处理中彩虹链的计算分别映射到GPU的单个线程,并利用预计算链提高了在线分析的效率.所使用的硬件平台GPU Tesla C1060 相对于CPU Core2 Duo 2.8 GHz,在运行速度方面,预处理提高了41.2倍(每秒110×106次DES加密),在线分析提高了3.52倍.在此系统上用1.3 GB的磁盘空间,平均2.73 s的在线分析时间以及46%的概率,成功获得了加密选择明文的40 bit DES密钥.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号