首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
关于CPU+GPU异构计算的研究与分析   总被引:2,自引:0,他引:2  
许桢 《科技信息》2010,(17):I0097-I0097,I0014
在PC技术领域,CPU和GPU始终是相辅相成,在二者已经发展到出现新的瓶颈时,"结合"也许是明智的解决方案,而关于整合CPU和GPU的方案就一直被人们所津津乐道。本文研究了CPU+GPU的异构化计算算法的优势和未来应用的可能性,特别是随着通用计算程序接口(OpenCL)的发布,CPU+GPU的异构化计算这种看起来像是CPU和GPU混合体的出现,相信这将使计算机处理器又将迈上一个新台阶,这种异构化成就的是更加高性能,更加高性价比的处理器,而这必将掀起GPU和CPU革命的高潮。  相似文献   

2.
矩量法(MOM)是求解电磁场散射和辐射问题的一种常用数值方法,当未知量数目比较大时,其计算需要大量的时间开销.引入计算统一设备架构(CUDA)技术,在图形处理器(GPU)上实现并行MOM,并且与传统的中央处理器(CPU)串行计算比较,验证GPU计算结果的准确性.在未知量数目不同时,分析MOM中的阻抗矩阵填充和共轭梯度(CG)迭代法的加速情况.当未知量数目较大时,计算速度与CPU相比可提升数十倍.  相似文献   

3.
在CPU串行运算模式下实现大规模矩阵求逆是一个非常耗时的过程。为了解决这一问题,基于NVIDIA公司专为GPU(图形处理器)提供的CUDA(计算统一设备架构),从新的编程角度出发,利用GPU多线程并行处理技术,将矩阵求逆过程中大量的数据实现并行运算,从而获得了较大的加速比。同时,根据程序的执行结果,分析了GPU的单精度与双精度的浮点运算能力及其优、劣势。最后,通过分析数据传输时间对GPU性能的影响,总结出适合GPU的算法特征。  相似文献   

4.
当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的Co-OLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型.Co-OLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000GPU(352个cuda核心)的处理性能,Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效.  相似文献   

5.
当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的CoOLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型.CoOLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000GPU(352个cuda核心)的处理性能,Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效.  相似文献   

6.
中央处理器(Central Processing Unit,CPU),作为整个计算机系统最为关键的部分,已经越来越引起业界对其设计的关注和研究兴趣。各大芯片制造商和研究机构争相推出自己的个人电脑(Personal Computer,PC)通用处理器体系结构,基于x86指令集的Intel Pentium系列和AMD Athlon系列处理器,以及基于MIPS指令集的Godson系列处理器。当今这个后PC时代,嵌入式处理器以其高性能、  相似文献   

7.
视点前沿     
英特尔明年推45纳米CPU进入摩尔法则下一周期据外电的最新报道,英特尔于2006年1月25日宣布,公司将于2007年下半年推出第一款45纳米制造工艺的个人电脑处理器,届时英特尔将进入摩尔法则的下一个周期。英特尔将之称为世界上第一款45纳米技术静态存储器芯片。据英特尔的一份声明透露,这款处理器将有10亿多个晶体管。英特尔发言人Joh nCasey表示,和其它测试芯片一样,这款处理器芯片将具静态存储器功能,这种处理器将具有多核处理器的所有功能。且他并没有把这款处理器称为英特尔的产品,他只是表示英特尔将根据下一代技术制造一种芯片。1纳米等…  相似文献   

8.
FFT算法是高度并行的分治算法,因此适合在GPU(Graphics Processing Unit,图形处理器)的CUDA(Compure Unified Device Architecture,计算统一设备体系结构)构架上实现.阐述了GPU用于通用计算的原理和方法,并在Geforce8800GT平台上完成了二维卷积FfTr的运算实验.实验结果表明,随着图像尺寸的增加,CPU和GPU上的运算量和运算时间大幅度增加,GPU上运算的速度提高倍数也随之增加,平均提升20倍左右.  相似文献   

9.
对基于统一计算设备架构(CUDA)的图形处理器(GPU)在图形处理方面的算法进行了研究和实现.针对目前图像处理算法日益复杂,性能要求越来越高,而传统的基于CPU的图像处理算法无法满足需求的情况,充分利用GPU突出的并行处理能力,采用CUDA技术,利用C++语言实现了图像处理算法.研究并设计了高斯模糊处理算法、彩色负片处理算法、透明合并处理算法的GPU并行运算流程,与CPU的性能对比表明基于GPU图像处理算法的效率更高.  相似文献   

10.
为降低粒子群优化算法(PSO: Particle Swarm Optimization)时间和空间的复杂度随问题规模的增大而越来越高的问题, 对图形处理器(GPU: Graphic Processing Unit)用于并行计算的方法进行了分析, 利用GPU的并行特性, 实现了粒子群优化算法路径搜索过程的并行化。测试函数实验结果证明, GPU平台较CPU模式下的计算, 其搜索速率有明显提高。  相似文献   

11.
《上海信息化》2006,(9):92-93
上海-英特尔(中国)有限公司今天携手产业界一起,在上海隆重发布了十款面向个人和企业的台式电脑、笔记本电脑和工作站的全新英特尔酷睿2双核处理器与英特尔酷睿2处理器至尊版。新产品的面市将彻底改变个人计算机的性能、外观和能耗等指标,并最终改变人们使用计算机的方式。  相似文献   

12.
基于GPU的弹性图像配准方法   总被引:2,自引:0,他引:2  
通常的弹性配准技术因其计算强度大,消耗时间长,难以满足实时应用的要求.新一代图形处理器(GPU)以其用户友好的可编程性和出色的并行计算能力,为解决该问题提供了新的途径.根据GPU的自身特点,以薄板样奈插值作为变换模型,构建了弹性配准计算平台.对二维单模态和多模态的两组图像进行实验,结果表明,相比于CPU,利用GPU可以更为迅速地获得变换参数,对于大尺寸、高分辨率或者多局部形变的图像,GPU的处理速度超出CPU 1个数量级以上.  相似文献   

13.
正一个GPU总需要一个CPU,但CPU的选择已经不再单一,GPU的功能也不再"简单",曾经稳固的关系,不再是单纯的合作。4月,英伟达发布了采用Arm架构的首款数据中心CPU Grace引发广泛关注。6月,外媒Tomshardware报道,像CPU一样总需要一个CPU的谷歌自研视频编解码处理单元Argos VCU,预计可以替换3000万至4000万个英特尔CPU。  相似文献   

14.
求解矩阵特征值的GPU实现   总被引:1,自引:0,他引:1  
提出了求解矩阵特征值的GPU(图形处理器)实现方法,分别用基于GPU的幂法和QR法求解矩阵的最大特征值和所有特征值。基于GPU的计算与基于CPU的计算相比较,证实其计算精度较好,运算时间比基于CPU的运算时间快2.7~7.6倍。  相似文献   

15.
杨新强 《科技信息》2010,(31):I0053-I0053,I0418
GPU(Graphic Processing Unit),即图形处理器是英伟达公司首先提出来的一个概念。其初始目的是用来进行图形渲染,并不是为了进行通用计算。近年来,图形处理器(GPU)的发展日益成熟,随着CUDA(Compute Unified Device Architecture)构架的推出,GPU的应用范围不在局限于计算机图形学本身,扩展到各个领域。FDTD(Finite Difference Time Domain)的计算过程可以很容易的划分为多个子计算过程,而子计算过程之间同时进行着相似的计算,...  相似文献   

16.
近年来,图形处理器(GPU)的发展日益成熟,应用范围不在局限于计算机图形学本身,已逐步扩展到通用数值计算领域.本文介绍了最新GPU用于通用计算的原理和方法,并在图像处理和科学计算方面对GPU和CPU算法进行了计算速度的对比研究,实验结果表明GPU在通用计算领域相对于CPU具有明显优势.  相似文献   

17.
随着图像数据量的增加,传统单核处理器或多处理器结构的计算方式已无法满足图像灰度化实时处理需求.该文利用图像处理器(GPU)在异构并行计算的优势,提出了基于开放式计算语言(OpenCL)的图像灰度化并行算法.通过分析加权平均图像灰度化数据处理的并行性,对任务进行了层次化分解,设计了2级并行的并行算法并映射到“CPU+GPU”异构计算平台上.实验结果显示:图像灰度化并行算法在OpenCL架构下NVIDIA GPU计算平台上相比串行算法、多核CPU并行算法和CUDA并行算法的性能分别获得了27.04倍、4.96倍和1.21倍的加速比.该文提出的并行优化方法的有效性和性能可移植性得到了验证.  相似文献   

18.
《山东科学》2011,24(6):14-14
10月27日,国家超级计算济南中心(以下简称为“济南中心”)正式建成揭牌,这是国内首台全部采用国产自主中央处理器(Central Processing Unit,CPU)和系统软件构建的千万亿次计算机系统,标志着我国成为继美国、日本之后能够采用自主中央处理器构建千万亿次计算机的国家。  相似文献   

19.
为了提高软硬件划分方法的效率,针对已有遗传算法求解软硬件划分没有结合特定问题处理、不满足约束个体的不足,提出一种混合并行的两步调整遗传算法.采用两步调整策略将不满足约束的个体转换为可行个体,当提高方法的运行效率时,图形处理单元用于计算每个个体的硬件耗费、软件耗费和通信耗费,多核CPU(中央处理器)用于并行执行个体间的调整,流并发传输策略进一步减少CPU和GPU(图形处理器)之间的传输开销.在基准数据集上,与求解该问题的已有方法相比,运行时间和求解质量都有明显优势.实验结果验证了该方法的有效性和合理性.  相似文献   

20.
利用CT进行三维重建需要高迭几十亿字节的数据,处理这样的海量数据对PC机或普通图形工作站的CPU来说都将是十分耗时的,重建速度仍是制约三维锥束CT应用的主要因素之一。图形处理器(Graphics Processing Unit,GPU)由于其所具有的超长流水线和高度并行化,不仅在图形处理领域得到广泛应用,而且被用来进行通用计算任务。由于计算机图形学中的投影过程和CT的数据生成本质是一致的,基于GPU进行CT重建是提高速度的有效途径,本文首先针对GPU的特点进行概述,之后着重介绍了在GPU上实现CT重建的原理和方法,同时分析了GPU能够实现加速的原因。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号