首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 671 毫秒
1.
关于CPU+GPU异构计算的研究与分析   总被引:2,自引:0,他引:2  
许桢 《科技信息》2010,(17):I0097-I0097,I0014
在PC技术领域,CPU和GPU始终是相辅相成,在二者已经发展到出现新的瓶颈时,"结合"也许是明智的解决方案,而关于整合CPU和GPU的方案就一直被人们所津津乐道。本文研究了CPU+GPU的异构化计算算法的优势和未来应用的可能性,特别是随着通用计算程序接口(OpenCL)的发布,CPU+GPU的异构化计算这种看起来像是CPU和GPU混合体的出现,相信这将使计算机处理器又将迈上一个新台阶,这种异构化成就的是更加高性能,更加高性价比的处理器,而这必将掀起GPU和CPU革命的高潮。  相似文献   

2.
图形处理单元(GPU)已经成为当今的主流计算系统的一个组成部分,现代GPU不仅是一个功能强大的图形引擎,也是一个高度并行的可编程处理器,GPU的峰值运算和内存带宽往往大幅超出其CPU所对应的峰值和内存带宽。本文介绍了基于GPU通用计算框架的JACKET加速MATLAB的计算仿真方法,通过FFT算法得出仿真结果,分析在CPU和GPU运行环境下的GFLOPS和加速比,最后得出基于GPU的MATLAB计算仿真程序运行效率在JACKET的加速下大大提高了。  相似文献   

3.
在高分辨率图像日益普及的情况下,Roberts边缘检测的处理速度急需进一步提高。在CPU表现不尽如人意的情况下,基于CPU/GPU和CPU/MIC的高度并行运算的研究愈加深入。在分析Roberts算法特点的基础上,将能并行的部分移植到GPU和MIC上进行。完成基于CPU/GPU和CPU/MIC的异构架构上的Roberts算法实现,并针对CPU/MIC上将程序进行向量化优化。实验结果表明,在相同单精度浮点运算能力下,GPU处理低分辨率图像的速度更快、加速比更高,但处理高分辨率图像时MIC的加速比最高为23.52,高于GPU的21.43。  相似文献   

4.
针对可变形部件模型算法(DPM)的计算量大,无法完成实时检测等问题,通过GPU编程模型CUDA,在Nvidia GPU上实现了HOG算法和DPM算法的并行化;采用OpenCL编程模型实现了DPM算法在集成显卡上的并行化。通过CPU和GPU的协同计算,保证目标识别效果的前提下,并行化的算法的执行效率相比于OpenCV中的CPU或GPU实现有明显的提高;通过对目标识别算法的并行化,结合其他算法,使得这类复杂算法能够在一些需要实时监测的工程领域中得到应用。  相似文献   

5.
杜宏 《科技信息》2012,(19):127-128
随着计算机技术的飞速发展,在高性能计算方面出现了一项全新的具有革命性的技术:GPU/CPU协同并行计算。中国煤炭地球物理勘探研究院引进了恒泰爱普公司基于GPU/CPU协同并行计算的叠前时间偏移软件,将其纳入常规煤炭地震数据处理流程,满足了生产需要。实际应用效果表明:此偏移技术经济成本低,运算速度快,地震资料处理效果明显提高。  相似文献   

6.
当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的Co-OLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型.Co-OLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000GPU(352个cuda核心)的处理性能,Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效.  相似文献   

7.
GPU是图形加速卡的处理单元,具有大量的并行流水线,通常,其浮点运算能力是同代的CPU的10倍以上。本文介绍了一种尚在完善中的利用GPU强大的浮点运算能力来加速通用科学计算的编程模型CUDA。CUDA是用于GPU计算的开发环境,它是一个全新的软硬件架构,可以将GPU视为一个并行数据计算的设备,对所进行的计算进行分配和管理。  相似文献   

8.
近年来,图形处理器(GPU)的发展日益成熟,应用范围不在局限于计算机图形学本身,已逐步扩展到通用数值计算领域.本文介绍了最新GPU用于通用计算的原理和方法,并在图像处理和科学计算方面对GPU和CPU算法进行了计算速度的对比研究,实验结果表明GPU在通用计算领域相对于CPU具有明显优势.  相似文献   

9.
当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的CoOLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型.CoOLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000GPU(352个cuda核心)的处理性能,Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效.  相似文献   

10.
求解矩阵特征值的GPU实现   总被引:1,自引:0,他引:1  
提出了求解矩阵特征值的GPU(图形处理器)实现方法,分别用基于GPU的幂法和QR法求解矩阵的最大特征值和所有特征值。基于GPU的计算与基于CPU的计算相比较,证实其计算精度较好,运算时间比基于CPU的运算时间快2.7~7.6倍。  相似文献   

11.
针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要.  相似文献   

12.
卷积神经网络是机器学习领域一种广泛应用的方法,在深度学习中发挥着重要的作用。由于卷积神经网络一般需要多个层,而且训练数据通常都很大,所以网络训练可能需要几小时甚至很多天。目前虽然有一些利用GPU加速卷积神经网络训练的研究成果,但基本上都是实现方式复杂,需要技巧很高,而且容易出错。提出了一种简洁、高效的加速卷积神经网络训练的方法,其主要过程是将卷积层展开,这样卷积层和全连接层的主要训练步骤都可以用矩阵乘法表示;再利用BLAS库高效计算矩阵乘法。这种方法不需要过多考虑并行处理的细节和处理器的内核特点,在CPU和GPU上都能加速。实验证明,GPU上使用该方法比传统的CPU上的实现快了100多倍。  相似文献   

13.
针对窦房结三维电生理建模复杂、仿真运算量大等问题,提出了一种有效的解决方法。首先利用建模软件建立右心房三维不规则立体模型,再利用网格划分软件剖分为四面体网格,最后根据网格的位置赋予窦房结和心房细胞属性建立电生理模型。数值解算时采用算子分裂法和有限体积法,分别对反应-扩散方程和单纯描述电扩布的微分方程进行了处理,同时利用高性能图形处理单元(GPU)在CUDA(compute unified device architecture)编程环境下实现程序的并行加速。另外,从减少CPU和GPU间的数据交换频率、参量存储方式等多方面对程序加以优化。计算结果表明,所建模型无论是单细胞动作电位还是膜电位的传导均符合正常的电生理特征。通过与串行程序及基于4核8线程CPU编写的共享内存式OpenMP并行程序进行比较,基于GPU的CUDA程序可将运行耗时减少90%以上,CPU和GPU间的数据交换仅占总耗时的3%,且组织模型越大,网格划分越细致,GPU的加速效果愈显著。  相似文献   

14.
刘勇  苏军 《科技信息》2010,(17):I0078-I0078,I0023
采用AMD公司的Radeon HD 5870GPU与Intel公司的Corei7 940 CPU作为比较测试平台,分别用OPENCL与单线程C代码编写的一维快速傅里叶变换进行测试。测试结果表明,在GPU充分并行的情况下,其性能相对于同价位CPU单线程性能提高30倍以上,即使对于充分利用CPU所有核心的多线程性能也能提高10倍左右。  相似文献   

15.
将自适应压力迭代法修正的Sola算法与相场模型相结合,建立过冷熔体在强迫流动状态下枝晶生长的Sola-相场模型.针对传统方法求解多场耦合相场模型时存在的计算量大,计算时间长,计算效率低等问题,提出基于CUDA+GPU软硬件体系结构的高性能计算方法.以高纯丁二腈(SCN)过冷熔体为例,在CPU+GPU异构平台上实现了存在流动时凝固微观组织演化过程的并行求解,并对基于CPU+GPU平台与CPU平台的计算结果及计算效率进行比较.结果表明,当计算规模达到百万量级时,与CPU平台上的串行算法相比,在CPU+GPU异构平台上达到了24.39倍的加速比,大大提高计算效率,并得到与串行计算相一致的结果.  相似文献   

16.
期权是金融领域中投资者用以进行套利和避险交易的一种衍生性金融工具.相对于CPU,GPU有着更好的并行处理能力和带宽优势,将其用于期权定价计算将极大地提高运算性能.本文以经典的美式期权定价模型的最小二乘蒙特卡洛方法为基础,提出了该算法基-GPU的一种实现.该文对一维期权合约的定价在CPU和GPU北进行了比较,来探索用GPU进行期权定价计算的优越性.测试结果表明,在保证相应的系统稳定性的前提下,针对不同的模拟次数和时间步数,GPU平台在运算性能上明显优于CPU平台.  相似文献   

17.
针对CPU处理栅格计算中的大量并行运算效率不高的瓶颈,选择高并发计算能力的GPU来解决该问题。通过分析GPU通用计算的关键技术,以CUDA为编程环境,分别实现了GPU中简单栅格计算、基于窗口运算的邻域分析和以汇流计算为例的栅格迭代分析。实验结果表明:CPU计算的时间消耗与输入数据长度和数据量线性正相关,GPU并发能力容纳范围内随着输入数据长度幂数增长和数据量增加,时间消耗变化不明显。证明了GPU栅格计算的有效性,具有一定的理论意义和实践价值。  相似文献   

18.
对于大规模遥感数据处理,单纯依靠CPU实现实时成像处理存在较大挑战。近年来出现的GPU图像处理单元为大规模数据处理提供了一个理想的处理平台。结合GPU和CPU的特点,利用基于CPU-GPU的异构协同处理平台来加速图像处理。同时,为了充分发挥该异质架构的性能,提出了一种改进的基于子孔径架构的成像算法,并在此架构上对超大规模遥感数据进行了成像处理,取得良好的成像效果和加速比。  相似文献   

19.
研究如何运用HLSL实现渐变动画的绘制,将CPU中的处理转移动GPU,利用GPU的运算能力和可编程性,提高绘制效率.  相似文献   

20.
在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号